NVIDIA 根據官方部落格 4 月 28 日公告(作者 Kari Briski)發表 Nemotron 3 Nano Omni — 開源多模態模型,將視覺、語音與語言能力整合進單一模型,目標是為 AI agent 系統提供更低延遲、更省成本的「感知層」。
核心規格:30B-A3B MoE、256K context、9 倍吞吐量、登 6 個排行榜首位
關鍵架構:
30B-A3B ハイブリッド混合専門家(總參數 30B、活化 3B)
Conv3D と EVS の編碼を統合
256K context 長
入力:文字、映像、音声、動画、ドキュメント、図表、GUI スクリーン
出力:文字
性能シグナル:他のオープンソース omni モデルと同等の相互作用で 9 倍のスループット;ドキュメント知能、動画理解、音声理解の3大カテゴリにおける合計 6 つのベンチマークランキングで首位を獲得(NVIDIA 公告では具体的なスコアは列挙されていないため、詳細は開発者ブログへ誘導)。
NVIDIA は Nemotron 3 Nano Omni を、agent システム内の「目と耳」として位置づけており、Nemotron 3 Super(高頻実行)、Nemotron 3 Ultra(複雑な計画)などの同系列モデルと役割分担できるほか、第三者のクラウドモデルとも相互運用可能です。3 つの典型的な agent 応用シーン:
コンピュータ操作エージェント(Computer Use Agent):ネイティブ 1920×1080 解像度の視覚推論
ドキュメント知能:図、表、スクリーンショット、混合メディア入力による推論
音声/動画理解:発話、画面、記録を統合して単一の推論シーケンスにする
採用企業の顔ぶれ:鴻海、Palantir が参入、H Company CEO が名を挙げて表明
NVIDIA 公告では「生産採用」と「検討中」が明確に区別されています:
すでに生産採用:Aible、Applied Scientific Intelligence(ASI)、Eka Care、鴻海(Foxconn)、H Company、Palantir、Pyler
検討中:Amdocs、Dell、Docusign、Infosys、IQVIA、Lila、Oracle、Quantiphi、TCS、Zefr など
H Company CEO の Gautier Cloix が公告で名を挙げて表明:「To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.」翻訳:「実用的なエージェントを構築するには、モデルがスクリーンを解釈するまで秒単位で待つことはできません。Nemotron 3 Nano Omni を土台にすることで、当社のエージェントはフル HD のスクリーン録画を迅速に解釈できます。これは以前は実現可能ではありませんでした。」
オープンソース戦略と展開:weights / datasets / 学習方法をすべて公開
NVIDIA は発表と同時に公開:
モデルの重み
学習データセット
学習技術/方法論
展開パイプラインは3層をカバー:
ローカルワークステーション:NVIDIA DGX Spark、DGX Station
NIM マイクロサービス:build.nvidia.com
サードパーティプラットフォーム:Hugging Face、OpenRouter。さらに 25 以上の NVIDIA Cloud Partners、推論プラットフォーム、クラウドサービス提供事業者を通じて提供
カスタムツールは NVIDIA NeMo を使用します。Nemotron 3 ファミリー(Nano/Super/Ultra)は過去1年で Hugging Face における累計ダウンロードが 5,000 万回を超えています。今回の Omni では、そのファミリーの能力を多モーダルおよび agentic 領域へ拡張しました。
この記事は、NVIDIA が Nemotron 3 Nano Omni をオープンソースでマルチモーダル公開したものとして、最初に 鏈新聞 ABMedia に掲載されました。
Related News
インテルは2度値上げし、納期を遅らせた。メディアテック(MediaTek)とスーパー・マイクロ(Supermicro)がその流れに乗ってCPUの市場シェアを獲得
Microsoft と OpenAI が協議を再締結:独占条項を撤廃、AGI 条項を削除
郭明錤:OpenAIは、MediaTek(聯發科)、Qualcomm(高通)およびLuxshare Precision(立訊精密)と共同で携帯電話を開発し、2028年に量産される予定
CerebrasはOpenAIと200億ドルの契約を獲得、IPOの目標評価額は350億
Mac Studio 大規模モデル実証実験:M3 Ultra、クラスター構成と M5 Ultra の見込み