美团开源LongCat-Next：3B参数统一视觉理解、生成与语音

区块律动

2026-03-26 01:51:32

据 1M AI News 监测，美团龙猫团队开源 LongCat-Next，一个基于 MoE 架构、激活参数 3B 的原生多模态模型，在单一自回归框架下统一了文本、视觉理解、图像生成、语音理解和语音合成五种能力。模型及配套分词器以 MIT 许可证开源，权重已上线 HuggingFace。

LongCat-Next 的核心设计是 DiNA（离散原生自回归）范式：通过为每种模态设计配对的分词器和解码器，将视觉和音频信号转化为离散 token，与文本共享同一嵌入空间，用统一的 next-token prediction 完成所有任务。视觉侧的关键组件 dNaViT（离散原生分辨率 Vision Transformer）将图像特征提取为「视觉词」，支持动态分词和解码，在 28 倍压缩比下仍保持较强的图像生成质量，尤其在文字渲染方面表现突出。

在同等激活参数量级（A3B）的模型对比中，LongCat-Next 的主要基准表现：

视觉理解：MMMU-Pro 60.3（Qwen3-Omni 57.0，GPT5-minimal 62.7），MathVista 83.1（Qwen3-Omni 75.9，GPT5-minimal 50.9），MathVision 64.7（领先所有对比模型），DocVQA 94.2
图像生成：GenEval 84.44，LongText-EN 93.15（FLUX.1-dev 60.70，Emu-3.5 97.60）
编程：SWE-Bench 43.0（Kimi-Linear-48B 32.8，Qwen3-Next-80B 37.6）
Agent 工具调用：Tau2-Retail 73.68（Qwen3-Next 57.3），Tau2-Telecom 62.06（Qwen3-Next 13.2）

在理解与生成统一模型的横向对比中，LongCat-Next 的 MMMU 得分 70.6 领先第二名 NEO-unify（68.9），大幅超过 BAGEL（55.3）和 Ovis-U1（51.1）等此前的统一模型方案。SWE-Bench 43.0 和 Tau2 系列工具调用基准的表现也说明，这一多模态统一架构并未牺牲纯文本和 Agent 能力。

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

0/400

暂无评论