据 1M AI News 监测,美团龙猫团队开源 LongCat-Next,一个基于 MoE 架构、激活参数 3B 的原生多模态模型,在单一自回归框架下统一了文本、视觉理解、图像生成、语音理解和语音合成五种能力。模型及配套分词器以 MIT 许可证开源,权重已上线 HuggingFace。
LongCat-Next 的核心设计是 DiNA(离散原生自回归)范式:通过为每种模态设计配对的分词器和解码器,将视觉和音频信号转化为离散 token,与文本共享同一嵌入空间,用统一的 next-token prediction 完成所有任务。视觉侧的关键组件 dNaViT(离散原生分辨率 Vision Transformer)将图像特征提取为「视觉词」,支持动态分词和解码,在 28 倍压缩比下仍保持较强的图像生成质量,尤其在文字渲染方面表现突出。
在同等激活参数量级(A3B)的模型对比中,LongCat-Next 的主要基准表现:
在理解与生成统一模型的横向对比中,LongCat-Next 的 MMMU 得分 70.6 领先第二名 NEO-unify(68.9),大幅超过 BAGEL(55.3)和 Ovis-U1(51.1)等此前的统一模型方案。SWE-Bench 43.0 和 Tau2 系列工具调用基准的表现也说明,这一多模态统一架构并未牺牲纯文本和 Agent 能力。