De acordo com a monitorização do 1M AI News, a equipa LongCat da Meituan open-souceou o LongCat-Next, um modelo multimodal nativo baseado na arquitetura MoE, com 3B de parâmetros ativados, que unifica cinco capacidades: compreensão de texto, compreensão visual, geração de imagens, compreensão de voz e síntese de voz, tudo num único quadro autoregressivo. O modelo e o tokenizador associado estão disponíveis sob licença MIT, com os pesos já disponíveis na HuggingFace.
O núcleo do LongCat-Next é o paradigma DiNA (Autoregressivo Discreto Nativo): ao criar tokenizadores e decodificadores específicos para cada modalidade, converte sinais visuais e de áudio em tokens discretos, partilhando o mesmo espaço de incorporação com o texto, e realiza todas as tarefas através de previsão de próximo token unificada. O componente chave na vertente visual, o dNaViT (Vision Transformer de Resolução Discreta Nativa), extrai características de imagens como “palavras visuais”, suportando tokenização e decodificação dinâmicas, mantendo uma alta qualidade de geração de imagens mesmo com uma compressão de 28 vezes, destacando-se especialmente na renderização de texto.
Em comparação com modelos de ativação de parâmetros semelhantes (A3B), o desempenho principal do LongCat-Next é:
Na comparação transversal de modelos unificados de compreensão e geração, o score MMMU do LongCat-Next é 70.6, liderando o segundo classificado, NEO-unify (68.9), e superando largamente soluções anteriores como BAGEL (55.3) e Ovis-U1 (51.1). O desempenho nos benchmarks de chamadas de ferramentas e de agentes, como SWE-Bench 43.0 e Tau2, também demonstra que esta arquitetura multimodal unificada não compromete as capacidades de texto puro nem de agentes.