NVIDIAがNemotron 3 Nano Omniのオープンソース多モーダルを発表

NVIDIA 根據官方部落格 4 月 28 日公告(作者 Kari Briski)發表 Nemotron 3 Nano Omni — 開源多模態模型,將視覺、語音與語言能力整合進單一模型,目標是為 AI agent 系統提供更低延遲、更省成本的「感知層」。

核心規格:30B-A3B MoE、256K context、9 倍吞吐量、登 6 個排行榜首位

關鍵架構:

30B-A3B ハイブリッド混合専門家(總參數 30B、活化 3B)

Conv3D と EVS の編碼を統合

256K context 長

入力:文字、映像、音声、動画、ドキュメント、図表、GUI スクリーン

出力:文字

性能シグナル:他のオープンソース omni モデルと同等の相互作用で 9 倍のスループット;ドキュメント知能、動画理解、音声理解の3大カテゴリにおける合計 6 つのベンチマークランキングで首位を獲得(NVIDIA 公告では具体的なスコアは列挙されていないため、詳細は開発者ブログへ誘導)。

NVIDIA は Nemotron 3 Nano Omni を、agent システム内の「目と耳」として位置づけており、Nemotron 3 Super(高頻実行)、Nemotron 3 Ultra(複雑な計画)などの同系列モデルと役割分担できるほか、第三者のクラウドモデルとも相互運用可能です。3 つの典型的な agent 応用シーン:

コンピュータ操作エージェント(Computer Use Agent):ネイティブ 1920×1080 解像度の視覚推論

ドキュメント知能:図、表、スクリーンショット、混合メディア入力による推論

音声/動画理解:発話、画面、記録を統合して単一の推論シーケンスにする

採用企業の顔ぶれ:鴻海、Palantir が参入、H Company CEO が名を挙げて表明

NVIDIA 公告では「生産採用」と「検討中」が明確に区別されています:

すでに生産採用:Aible、Applied Scientific Intelligence(ASI)、Eka Care、鴻海(Foxconn)、H Company、Palantir、Pyler

検討中:Amdocs、Dell、Docusign、Infosys、IQVIA、Lila、Oracle、Quantiphi、TCS、Zefr など

H Company CEO の Gautier Cloix が公告で名を挙げて表明:「To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.」翻訳:「実用的なエージェントを構築するには、モデルがスクリーンを解釈するまで秒単位で待つことはできません。Nemotron 3 Nano Omni を土台にすることで、当社のエージェントはフル HD のスクリーン録画を迅速に解釈できます。これは以前は実現可能ではありませんでした。」

オープンソース戦略と展開:weights / datasets / 学習方法をすべて公開

NVIDIA は発表と同時に公開:

モデルの重み

学習データセット

学習技術/方法論

展開パイプラインは3層をカバー:

ローカルワークステーション:NVIDIA DGX Spark、DGX Station

NIM マイクロサービス:build.nvidia.com

サードパーティプラットフォーム:Hugging Face、OpenRouter。さらに 25 以上の NVIDIA Cloud Partners、推論プラットフォーム、クラウドサービス提供事業者を通じて提供

カスタムツールは NVIDIA NeMo を使用します。Nemotron 3 ファミリー(Nano/Super/Ultra)は過去1年で Hugging Face における累計ダウンロードが 5,000 万回を超えています。今回の Omni では、そのファミリーの能力を多モーダルおよび agentic 領域へ拡張しました。

この記事は、NVIDIA が Nemotron 3 Nano Omni をオープンソースでマルチモーダル公開したものとして、最初に 鏈新聞 ABMedia に掲載されました。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし