Mensagem do Gate News, 23 de abril — Pesquisadores do Google, incluindo He Kaiming e Xie Saining, publicaram um artigo que apresenta o Vision Banana, um modelo geral de compreensão visual criado por meio de ajuste fino leve de instruções do modelo de geração de imagem Nano Banana Pro (Gemini 3 Pro ). A principal inovação unifica as saídas de todas as tarefas visuais como imagens RGB, permitindo segmentação, estimativa de profundidade e predição de normais de superfície por meio de geração de imagens, sem arquiteturas ou funções de perda específicas da tarefa.
Na segmentação semântica, o Vision Banana superou o modelo especializado SAM 3 em 4,7 pontos percentuais no Cityscapes; na segmentação por expressão de referência, ele superou o SAM 3 Agent. No entanto, ficou atrás do SAM 3 em segmentação de instâncias. Para tarefas 3D, a estimativa métrica de profundidade alcançou 0,929 de acurácia média em quatro conjuntos de dados padrão, superando os 0,918 do Depth Anything V3, usando apenas dados sintéticos sem informações reais de profundidade ou parâmetros de câmera durante a inferência. A estimativa de normais de superfície obteve resultados de ponta em três benchmarks internos.
O ajuste fino envolveu dados mínimos de tarefas de visão misturados ao treinamento original de geração de imagens, preservando as capacidades de geração do modelo — o desempenho correspondeu ao Nano Banana Pro original nos testes de qualidade de geração. O artigo propõe que o pré-treinamento de geração de imagens em visão é paralelo ao pré-treinamento de geração de texto em linguagem: os modelos aprendem as representações internas necessárias para a compreensão de imagens durante a geração, com o ajuste fino de instruções apenas liberando essa capacidade.
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o
Aviso Legal.
Related Articles
Hoskinson discute o papel do Midnight no ecossistema da Cardano no The Breakdown
Charles Hoskinson, fundador da Cardano e cofundador da Ethereum, apareceu como convidado no episódio 701 do podcast "The Breakdown", apresentado por David Gokhshtein, para discutir o projeto Midnight, os desafios de experiência do usuário no cripto e sua visão para o futuro da blockchain. Durante a entrevista, Hoskinson
CryptoFrontier4h atrás
A Berkshire Energy vê oportunidade de crescimento na demanda por energia impulsionada por IA
De acordo com Beating, na assembleia de acionistas da Berkshire, o CEO Abel destacou que a demanda de eletricidade impulsionada por IA está criando novas oportunidades de crescimento para o negócio de energia da empresa, com metade das suas concessionárias de energia já atendendo requisitos de energia relacionados a IA.
Em Iowa, data centers agora contabilizam
GateNews7h atrás
Depoimentos na 1ª semana do processo de Musk vs. Altman: ele admite que a XAI está “destilando” a OpenAI, e alerta que a IA é como um Exterminador
馬斯克, na primeira semana de depoimento em um tribunal federal de Oakland, acusou Altman e Brockman de fraudar recursos iniciais de uma organização sem fins lucrativos, alertou sobre riscos catastróficos de fim do mundo com a IA e admitiu que parte do xAI foi “destilada” de modelos da OpenAI; ele declarou ter investido US$ 38 milhões e ter visto a OpenAI se transformar de uma entidade sem fins lucrativos em uma empresa avaliada em US$ 800 bilhões. O investimento da Microsoft em 2022 é visto como um ponto de virada na quebra de confiança. A OpenAI argumenta que Musk tentou aliciar pessoas e contesta com a alegação de motivações competitivas. Na segunda semana, novos depoentes incluem Russell e Brockman.
ChainNewsAbmedia8h atrás
A AI Finance ligada a Trump adquire a Block Street por US$ 43 milhões
De acordo com a Fortune, a AI Financial, uma empresa de criptomoedas ligada à família Trump e que antes se chamava Alt5 Sigma, adquiriu a Block Street, uma empresa de infraestrutura cripto, por US$ 43 milhões na semana passada. Matthew Morgan, assessor da AI Financial e CEO da Block Street, afirmou que a aquisição não foi um
GateNews9h atrás
Ações da Riot Disparam 8% Após Expandir A Acordo com a AMD para Data Center
As ações da mineradora de Bitcoin Riot subiram 8% após a expansão de seu acordo com a AMD para data centers. A parceria ampliada inclui melhores condições de financiamento, destacando a mudança estratégica da Riot, saindo da mineração de bitcoin em direção à operação de data centers de inteligência artificial. A medida sinaliza confiança crescente
GateNews11h atrás
Minnesota proíbe ferramentas de IA para imagens íntimas não consensuais e impõe multas de até $500K
De acordo com a Decrypt, a legislatura de Minnesota aprovou, em 2 de maio, um projeto de lei que proíbe sites e aplicativos de fornecerem ferramentas de IA que gerem imagens íntimas não consensuais de indivíduos identificáveis. A lei impede as plataformas de permitirem que usuários acessem ou usem essas ferramentas de “deepfake” e proíbe
GateNews13h atrás