O Vision Banana da Google: Um modelo visual unificado supera modelos específicos de tarefa na segmentação e na geometria 3D

Mensagem do Gate News, 23 de Abril — Investigadores da Google, incluindo He Kaiming e Xie Saining, publicaram um artigo que apresenta o Vision Banana, um modelo de compreensão visual de propósito geral criado através do ajuste fino leve de instruções do modelo de geração de imagens Nano Banana Pro ( Gemini 3 Pro Image) da empresa. A principal inovação unifica as saídas de todas as tarefas visuais como imagens RGB, permitindo segmentação, estimativa de profundidade e previsão de normais de superfície através de geração de imagens, sem arquiteturas ou funções de perda específicas da tarefa.

Na segmentação semântica, o Vision Banana superou o modelo especializado SAM 3 em 4,7 pontos percentuais no Cityscapes; na segmentação de expressões de referência, ultrapassou o SAM 3 Agent. No entanto, ficou aquém do SAM 3 na segmentação de instâncias. Para tarefas 3D, a estimativa métrica de profundidade atingiu 0,929 de precisão média em quatro conjuntos de dados padrão, excedendo os 0,918 do Depth Anything V3, usando apenas dados sintéticos sem informação real de profundidade ou parâmetros de câmara na inferência. A estimativa de normais de superfície alcançou resultados de última geração em três benchmarks interiores.

O ajuste fino envolveu dados mínimos de tarefas visuais misturados no treino original de geração de imagens, preservando as capacidades de geração do modelo — o desempenho correspondeu ao Nano Banana Pro original nos testes de qualidade de geração. O artigo propõe que o pré-treino de geração de imagens em visão é semelhante ao pré-treino de geração de texto em linguagem: os modelos aprendem as representações internas necessárias para a compreensão de imagens durante a geração, enquanto o ajuste fino por instruções apenas liberta esta capacidade.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário