Según el anuncio del 28 de abril en el blog oficial de NVIDIA (autor Kari Briski), NVIDIA presentó Nemotron 3 Nano Omni — un modelo multimodal de código abierto que integra capacidades de visión, voz y lenguaje en un solo modelo, con el objetivo de proporcionar a los sistemas de agentes de IA una capa de “percepción” con menor latencia y menor costo.
Especificaciones clave: 30B-A3B MoE, contexto de 256K, 9 veces más rendimiento, y ocupar el 1.º lugar en 6 rankings
Arquitectura clave:
30B-A3B mixture-of-experts híbrido (30B de parámetros totales, 3B activados)
Integración de codificación Conv3D y EVS
Longitud de contexto 256K
Entrada: texto, imágenes, audio, videos, documentos, tablas, pantalla de GUI
Salida: texto
Señales de rendimiento: 9 veces más rendimiento con la misma capacidad de interacción que otros modelos omni de código abierto; en tres grandes categorías (inteligencia de documentos, comprensión de videos y comprensión de audio), obtuvo el 1.º lugar en un total de 6 rankings (NVIDIA no incluyó puntuaciones específicas en el anuncio; guía a los lectores para que consulten los detalles en el blog de desarrolladores).
NVIDIA posiciona Nemotron 3 Nano Omni como “los ojos y los oídos” dentro de los sistemas de agentes; puede repartirse el trabajo con otros modelos de la misma familia como Nemotron 3 Super (ejecución de alta frecuencia) y Nemotron 3 Ultra (planificación compleja), y también puede interoperar con modelos de nube de terceros. Tres escenarios típicos de aplicaciones de agentes:
Agente de uso de computadora (Computer Use Agent): razonamiento visual con resolución nativa de 1920×1080
Inteligencia de documentos: razonamiento de entradas multimodales que cruzan figuras, tablas, capturas y medios mixtos
Comprensión de audio/video: integrar voz, imágenes y grabaciones en una sola secuencia de inferencia
Equipo de adopción: Foxconn, Palantir se incorporan; el CEO de H Company emite una declaración con nombre
En el anuncio de NVIDIA se distingue explícitamente entre “adopción en producción” y “en evaluación”:
Adoptados en producción: Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn (鴻海), H Company, Palantir, Pyler
En evaluación: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr, etc.
El CEO de H Company, Gautier Cloix, emitió una declaración con nombre en el anuncio: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” Traducción: “Para construir agentes útiles, no puedes esperar segundos a que un modelo interprete una pantalla. Al construir sobre Nemotron 3 Nano Omni, nuestros agentes pueden interpretar rápidamente grabaciones de pantalla en Full HD — algo que antes no era práctico.”
Estrategia de código abierto y despliegue: weights / datasets / métodos de entrenamiento, todo público
Al momento de su lanzamiento, NVIDIA dio a conocer:
Pesos del modelo
Conjunto de datos de entrenamiento
Tecnologías/técnicas y metodología de entrenamiento
El canal de despliegue abarca tres capas:
Estaciones de trabajo locales: NVIDIA DGX Spark, DGX Station
Microservicios NIM: build.nvidia.com
Plataformas de terceros: Hugging Face, OpenRouter, y mediante más de 25 NVIDIA Cloud Partners, plataformas de inferencia y proveedores de servicios en la nube
Las herramientas de personalización se usan con NVIDIA NeMo. La familia Nemotron 3 (Nano/Super/Ultra) acumuló descargas de más de 50 millones de veces en Hugging Face durante el año pasado; en esta ocasión, Omni extiende las capacidades de esa familia al ámbito multimodal y de agentes.
Este artículo sobre el lanzamiento de Nemotron 3 Nano Omni de NVIDIA como código abierto y multimodal apareció por primera vez en 鏈新聞 ABMedia.
Artículos relacionados
El agente de IA Manfred forma una empresa y prepara una cartera de criptomonedas para operar a finales de mayo
MoonPay lanza la tarjeta MoonAgents en la red Mastercard este viernes
137 Ventures cierra $700M en nuevos fondos; AUM alcanza 15.000 millones de USD
Reddit se dispara un 16% con una sólida perspectiva para el 2T; Apple enfrenta un déficit de Mac mientras la demanda de IA supera el suministro
Visa lanza el programa agentic ready en Hong Kong el 1 de mayo, habilitando pagos con agentes de IA
OpenClaw lanza v2026.4.29 el 29 de abril, actualiza la memoria a un wiki personalizado con seguimiento de relaciones