根据 NVIDIA 官方部落格 4 月 28 日公告(作者 Kari Briski),NVIDIA 发布 Nemotron 3 Nano Omni——开源多模态模型,将视觉、语音与语言能力整合进单一模型,目标是为 AI agent 系统提供更低延迟、更省成本的「感知层」。
核心规格:30B-A3B MoE、256K context、9 倍吞吐量、登 6 个排行榜首位
关键架构:
30B-A3B hybrid mixture-of-experts(总参数 30B、活化 3B)
整合 Conv3D 与 EVS 编码
256K context 长度
输入:文字、影像、音讯、影片、文件、图表、GUI 螢幕
输出:文字
性能信号:较其他开源 omni 模型在同等互动性下达 9 倍吞吐量;在文件智慧、影片理解、音讯理解三大类共 6 个基准排行榜取得首位(NVIDIA 公告未列出具体分数,因而引导读者前往开发者部落格查看详细资料)。
NVIDIA 把 Nemotron 3 Nano Omni 定位为 agent 系统中的「眼睛与耳朵」,可与 Nemotron 3 Super(高频执行)、Nemotron 3 Ultra(复杂规划)等同家族模型分工,亦可与第三方云端模型互通。三个典型 agent 应用场景:
电脑操作代理(Computer Use Agent):原生 1920×1080 分辨率视觉推理
文件智慧:跨图、表、截图与混合媒体输入推理
音讯/影片理解:把讲话、画面、纪录整合为单一推理串
采用方阵容:鸿海、Palantir 入列、H Company CEO 具名表态
NVIDIA 公告中明确区分「生产采用」与「正在评估」:
已生产采用:Aible、Applied Scientific Intelligence(ASI)、Eka Care、鸿海(Foxconn)、H Company、Palantir、Pyler
正在评估:Amdocs、Dell、Docusign、Infosys、IQVIA、Lila、Oracle、Quantiphi、TCS、Zefr 等
H Company 执行长 Gautier Cloix 在公告中具名表态:「To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.」翻译:「打造实用代理时,你不能等模型秒级解读螢幕。建立在 Nemotron 3 Nano Omni 之上,我们的代理可快速解读完整 HD 螢幕录影——这在之前并不实用可行。」
开源策略与部署:weights / datasets / 训练方法全公开
NVIDIA 在发布同时公开:
模型权重
训练数据集
训练技术/方法论
部署管道涵盖三层:
本地工作站:NVIDIA DGX Spark、DGX Station
NIM 微服务:build.nvidia.com
第三方平台:Hugging Face、OpenRouter,并通过 25 个以上 NVIDIA Cloud Partners、推理平台与云端服务商提供
客制化工具则使用 NVIDIA NeMo。Nemotron 3 家族(Nano/Super/Ultra)过去一年在 Hugging Face 累积下载超过 5,000 万次,本次 Omni 将该家族能力延伸至多模态与 agentic 领域。
这篇文章 NVIDIA 发布 Nemotron 3 Nano Omni 开源多模态 最早出现在 链新闻 ABMedia。
相关文章
Cloudflare 在 2026 年共识大会(Consensus 2026)每天触发 10 亿次 HTTP 402 响应,并与 Visa 和 Experian 一同推出代理信任框架