Згідно з оголошенням NVIDIA у офіційному блозі від 28 квітня (автор Kari Briski), NVIDIA представила Nemotron 3 Nano Omni — відкриту багатомодальну модель, яка об’єднує візуальні, аудіо та мовні можливості в одній моделі, з метою надати для систем AI agent нижчу затримку та меншу вартість “рівня сприйняття”.
Ключові специфікації: 30B-A3B MoE、256K контекст、9 разів пропускна здатність、здобула 6 місць №1 у рейтингах
Ключова архітектура:
30B-A3B hybrid mixture-of-experts (загальні параметри 30B, активні 3B)
Інтеграція Conv3D та EVS кодування
Довжина 256K контексту
Вхід: текст, зображення, аудіо, відео, документи, діаграми, GUI-екрани
Вихід: текст
Сигнали продуктивності: у порівнянні з іншими відкритими omni-моделями за однакової інтерактивності забезпечує 9 разів пропускну здатність; у трьох категоріях — інтелектуальні документи, розуміння відео, розуміння аудіо — здобула перше місце в усіх 6 базових рейтингах (в оголошенні NVIDIA не наведено конкретних балів; воно спрямовує читачів до розробницького блогу, щоб переглянути детальні дані).
NVIDIA позиціонує Nemotron 3 Nano Omni як “очі та вуха” в агентних системах; вона може виконувати розподіл робіт разом із моделями того ж сімейства, такими як Nemotron 3 Super (високочастотне виконання) та Nemotron 3 Ultra (складне планування), а також може взаємодіяти з хмарними моделями сторонніх розробників. Три типові сценарії використання агентів:
Агент для комп’ютерного використання (Computer Use Agent): власне візуальне міркування з роздільною здатністю 1920×1080
Інтелект документів: міркування з вхідними даними, що охоплюють діаграми/таблиці/скріншоти та змішені медіа
Розуміння аудіо/відео: об’єднання мовлення, зображення й записів в один ланцюжок міркування
Склад компаній, що приєдналися: Hon Hai, Palantir — у списку, H Company CEO — з іменним підтвердженням
У оголошенні NVIDIA чітко розмежовано “виробниче впровадження” та “перебуває на оцінюванні”:
Вже виробничо впроваджено: Aible, Applied Scientific Intelligence (ASI), Eka Care, Hon Hai (Foxconn), H Company, Palantir, Pyler
Перебуває на оцінюванні: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr тощо
CEO H Company Gautier Cloix у оголошенні з іменним підтвердженням сказав: «To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.» Переклад: «Щоб створювати корисні агенти, не можна чекати секунди, поки модель інтерпретує екран. Спираючись на Nemotron 3 Nano Omni, наші агенти можуть швидко інтерпретувати повні HD-записи екрана — те, що раніше було не практично здійсненним.»
Стратегія відкритого коду та розгортання: weights / datasets / методи навчання — повністю відкриті
Під час випуску NVIDIA оприлюднила одночасно:
вагові коефіцієнти моделі
навчальні набори даних
техніки/методології навчання
Конвеєр розгортання охоплює три рівні:
Локальні робочі станції: NVIDIA DGX Spark, DGX Station
NIM мікросервіси: build.nvidia.com
Платформи сторонніх розробників: Hugging Face, OpenRouter, а також через 25+ NVIDIA Cloud Partners, платформи для інференсу та постачальників хмарних сервісів
Індивідуальні інструменти використовують NVIDIA NeMo. За минулий рік сімейство Nemotron 3 (Nano/Super/Ultra) на Hugging Face накопичило понад 50,000,000 завантажень; цього разу Omni поширює можливості цього сімейства на багатомодальність та агентну сферу.
Ця стаття NVIDIA, в якій висвітлено відкриття коду Nemotron 3 Nano Omni як багатомодальної моделі, вперше з’являється на 鏈新聞 ABMedia.
Пов'язані статті
AI-фінансова платформа Rogo залучила $160M у Серії D під керівництвом Kleiner Perkins менш ніж за 3 місяці
Певні CEX запустили Протокол платежів Agent Payments Protocol, що підтримує 4 режими оплати та 9 партнерів, зокрема Ethereum Foundation
29 квітня Китай блокує придбання Manus AI, яке підтримує Meta, посилаючись на занепокоєння щодо технологічної та даних безпеки
Основна мережа KITE AI запущена на Avalanche 29 квітня як блокчейн для агентів ШІ, створений за призначенням
B.AI та deBridge співпрацюють для створення кросчейн-інфраструктури для AI-агентів
Parallel Парага Агравала залучила $100M Series B для інфраструктури пошуку для AI-агентів