Meituan lança o LongCat-Next de código aberto: compreensão, geração e fala unificadas com 3 bilhões de parâmetros

BlockBeatNews

De acordo com a monitorização do 1M AI News, a equipa LongCat da Meituan open-souceou o LongCat-Next, um modelo multimodal nativo baseado na arquitetura MoE, com 3B de parâmetros ativados, que unifica cinco capacidades: compreensão de texto, compreensão visual, geração de imagens, compreensão de voz e síntese de voz, tudo num único quadro autoregressivo. O modelo e o tokenizador associado estão disponíveis sob licença MIT, com os pesos já disponíveis na HuggingFace.

O núcleo do LongCat-Next é o paradigma DiNA (Autoregressivo Discreto Nativo): ao criar tokenizadores e decodificadores específicos para cada modalidade, converte sinais visuais e de áudio em tokens discretos, partilhando o mesmo espaço de incorporação com o texto, e realiza todas as tarefas através de previsão de próximo token unificada. O componente chave na vertente visual, o dNaViT (Vision Transformer de Resolução Discreta Nativa), extrai características de imagens como “palavras visuais”, suportando tokenização e decodificação dinâmicas, mantendo uma alta qualidade de geração de imagens mesmo com uma compressão de 28 vezes, destacando-se especialmente na renderização de texto.

Em comparação com modelos de ativação de parâmetros semelhantes (A3B), o desempenho principal do LongCat-Next é:

  1. Compreensão visual: MMMU-Pro 60.3 (Qwen3-Omni 57.0, GPT5-minimal 62.7), MathVista 83.1 (Qwen3-Omni 75.9, GPT5-minimal 50.9), MathVision 64.7 (superior a todos os modelos comparados), DocVQA 94.2
  2. Geração de imagens: GenEval 84.44, LongText-EN 93.15 (FLUX.1-dev 60.70, Emu-3.5 97.60)
  3. Programação: SWE-Bench 43.0 (Kimi-Linear-48B 32.8, Qwen3-Next-80B 37.6)
  4. Chamada de ferramentas por agentes: Tau2-Retail 73.68 (Qwen3-Next 57.3), Tau2-Telecom 62.06 (Qwen3-Next 13.2)

Na comparação transversal de modelos unificados de compreensão e geração, o score MMMU do LongCat-Next é 70.6, liderando o segundo classificado, NEO-unify (68.9), e superando largamente soluções anteriores como BAGEL (55.3) e Ovis-U1 (51.1). O desempenho nos benchmarks de chamadas de ferramentas e de agentes, como SWE-Bench 43.0 e Tau2, também demonstra que esta arquitetura multimodal unificada não compromete as capacidades de texto puro nem de agentes.

Ver original
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários