NVIDIA 发布 Nemotron 3 Nano Omni 开源多模态

2026-05-07 10:56:27

根据 NVIDIA 官方部落格 4 月 28 日公告（作者 Kari Briski），NVIDIA 发布 Nemotron 3 Nano Omni——开源多模态模型，将视觉、语音与语言能力整合进单一模型，目标是为 AI agent 系统提供更低延迟、更省成本的「感知层」。

核心规格：30B-A3B MoE、256K context、9 倍吞吐量、登 6 个排行榜首位

关键架构：

30B-A3B hybrid mixture-of-experts（总参数 30B、活化 3B）

整合 Conv3D 与 EVS 编码

256K context 长度

输入：文字、影像、音讯、影片、文件、图表、GUI 螢幕

输出：文字

性能信号：较其他开源 omni 模型在同等互动性下达 9 倍吞吐量；在文件智慧、影片理解、音讯理解三大类共 6 个基准排行榜取得首位（NVIDIA 公告未列出具体分数，因而引导读者前往开发者部落格查看详细资料）。

NVIDIA 把 Nemotron 3 Nano Omni 定位为 agent 系统中的「眼睛与耳朵」，可与 Nemotron 3 Super（高频执行）、Nemotron 3 Ultra（复杂规划）等同家族模型分工，亦可与第三方云端模型互通。三个典型 agent 应用场景：

电脑操作代理（Computer Use Agent）：原生 1920×1080 分辨率视觉推理

文件智慧：跨图、表、截图与混合媒体输入推理

音讯／影片理解：把讲话、画面、纪录整合为单一推理串

采用方阵容：鸿海、Palantir 入列、H Company CEO 具名表态

NVIDIA 公告中明确区分「生产采用」与「正在评估」：

已生产采用：Aible、Applied Scientific Intelligence（ASI）、Eka Care、鸿海（Foxconn）、H Company、Palantir、Pyler

正在评估：Amdocs、Dell、Docusign、Infosys、IQVIA、Lila、Oracle、Quantiphi、TCS、Zefr 等

H Company 执行长 Gautier Cloix 在公告中具名表态：「To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.」翻译：「打造实用代理时，你不能等模型秒级解读螢幕。建立在 Nemotron 3 Nano Omni 之上，我们的代理可快速解读完整 HD 螢幕录影——这在之前并不实用可行。」

开源策略与部署：weights / datasets / 训练方法全公开

NVIDIA 在发布同时公开：

模型权重

训练数据集

训练技术／方法论

部署管道涵盖三层：

本地工作站：NVIDIA DGX Spark、DGX Station

NIM 微服务：build.nvidia.com

第三方平台：Hugging Face、OpenRouter，并通过 25 个以上 NVIDIA Cloud Partners、推理平台与云端服务商提供

客制化工具则使用 NVIDIA NeMo。Nemotron 3 家族（Nano／Super／Ultra）过去一年在 Hugging Face 累积下载超过 5,000 万次，本次 Omni 将该家族能力延伸至多模态与 agentic 领域。

这篇文章 NVIDIA 发布 Nemotron 3 Nano Omni 开源多模态最早出现在链新闻 ABMedia。

免责声明：本页面信息可能来自第三方，仅供参考，不代表 Gate 的观点或意见，亦不构成任何财务、投资或法律建议。数字资产交易风险较高，请勿仅依赖本页面信息作出决策。具体内容详见声明。