NVIDIA представила Nemotron 3 Nano Omni — відкриту мультимодальну модель

Згідно з оголошенням NVIDIA у офіційному блогe від 28 квітня (автор Kari Briski), NVIDIA представила Nemotron 3 Nano Omni — відкрита мультимодальна модель, яка поєднує візуальні, голосові та мовні можливості в єдину модель; мета — надати AI agent системам «шар сприйняття» з нижчою затримкою та меншими витратами.

Ключові специфікації: 30B-A3B MoE, 256K контекст, 9-кратна пропускна здатність, посіла 1 місце в 6 рейтингах

Ключова архітектура:

30B-A3B hybrid mixture-of-experts (загальні параметри 30B, активовані 3B)

інтеграція Conv3D та EVS кодування

довжина 256K контексту

Вхідні дані: текст, зображення, аудіо, відео, файли, діаграми, екрани GUI

Вихідні дані: текст

Сигнали продуктивності: у тих самих сценаріях взаємодії забезпечує 9-кратну пропускну здатність порівняно з іншими відкритими omni-моделями; у трьох категоріях — інтелектуальні документи, розуміння відео та розуміння аудіо — здобула 1 місце в сукупності в 6 базових рейтингах (у повідомленні NVIDIA не наведено конкретних балів; це підштовхує читачів перейти в розробницький блог за детальною інформацією).

NVIDIA позиціонує Nemotron 3 Nano Omni як «очі та вуха» в agent-системах: вона працює в розподілі ролей із моделями того ж сімейства Nemotron 3 Super (виконання на високій частоті) і Nemotron 3 Ultra (складне планування), а також може інтегруватися з хмарними моделями сторонніх розробників. Три типові сценарії застосування для agent:

Агент для керування комп’ютером (Computer Use Agent): візуальне міркування з нативною роздільною здатністю 1920×1080

Інтелектуальні документи: міркування з кросграфіками, таблицями, скріншотами та змішаними мультимедійними входами

Розуміння аудіо/відео: поєднання того, що говорять, що показують, і записів в єдину послідовність міркування

Склад підтримки: у списку — Foxconn, Palantir, H Company CEO озвучив позицію іменем

У повідомленні NVIDIA чітко розділено «виробниче впровадження» та «перебуває на оцінюванні»:

Вже впроваджено у виробництво: Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn (鴻海), H Company, Palantir, Pyler

Перебуває на оцінюванні: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr тощо

Генеральний директор H Company Gautier Cloix у повідомленні іменем заявив: «To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.» Переклад: «Щоб створити корисні agent-и, не можна чекати секунди, поки модель інтерпретує екран. Спираючись на Nemotron 3 Nano Omni, наші agent-и можуть швидко інтерпретувати записи повноекранного HD — те, що раніше було неприйнятним з точки зору практичності».

Стратегія відкритості та розгортання: weights / datasets / методи тренування — повністю у відкритому доступі

Під час релізу NVIDIA оприлюднила:

ваги моделі

тренувальні датасети

тренувальні техніки / методологію

Пайплайн розгортання охоплює три рівні:

Локальні робочі станції: NVIDIA DGX Spark, DGX Station

NIM мікросервіси: build.nvidia.com

Платформи сторонніх розробників: Hugging Face, OpenRouter, а також через 25+ NVIDIA Cloud Partners, інференс-платформи та хмарних сервіс-провайдерів

Індивідуальні інструменти використовують NVIDIA NeMo. Сімейство Nemotron 3 (Nano / Super / Ultra) за минулий рік у Hugging Face накопичило понад 50 мільйонів завантажень; цього разу Omni розширює можливості цього сімейства на мультимодальний і agentic напрям.

Ця публікація про те, що NVIDIA представила Nemotron 3 Nano Omni з відкритим кодом мультимодальної моделі, вперше з’явилася на 鏈新聞 ABMedia.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів