NVIDIA presenta Nemotron 3 Nano Omni de código abierto multimodal

Según el anuncio del 28 de abril en el blog oficial de NVIDIA (autor Kari Briski), NVIDIA presentó Nemotron 3 Nano Omni — un modelo multimodal de código abierto que integra capacidades de visión, voz y lenguaje en un solo modelo, con el objetivo de proporcionar a los sistemas de agentes de IA una capa de “percepción” con menor latencia y menor costo.

Especificaciones clave: 30B-A3B MoE, contexto de 256K, 9 veces más rendimiento, y ocupar el 1.º lugar en 6 rankings

Arquitectura clave:

30B-A3B mixture-of-experts híbrido (30B de parámetros totales, 3B activados)

Integración de codificación Conv3D y EVS

Longitud de contexto 256K

Entrada: texto, imágenes, audio, videos, documentos, tablas, pantalla de GUI

Salida: texto

Señales de rendimiento: 9 veces más rendimiento con la misma capacidad de interacción que otros modelos omni de código abierto; en tres grandes categorías (inteligencia de documentos, comprensión de videos y comprensión de audio), obtuvo el 1.º lugar en un total de 6 rankings (NVIDIA no incluyó puntuaciones específicas en el anuncio; guía a los lectores para que consulten los detalles en el blog de desarrolladores).

NVIDIA posiciona Nemotron 3 Nano Omni como “los ojos y los oídos” dentro de los sistemas de agentes; puede repartirse el trabajo con otros modelos de la misma familia como Nemotron 3 Super (ejecución de alta frecuencia) y Nemotron 3 Ultra (planificación compleja), y también puede interoperar con modelos de nube de terceros. Tres escenarios típicos de aplicaciones de agentes:

Agente de uso de computadora (Computer Use Agent): razonamiento visual con resolución nativa de 1920×1080

Inteligencia de documentos: razonamiento de entradas multimodales que cruzan figuras, tablas, capturas y medios mixtos

Comprensión de audio/video: integrar voz, imágenes y grabaciones en una sola secuencia de inferencia

Equipo de adopción: Foxconn, Palantir se incorporan; el CEO de H Company emite una declaración con nombre

En el anuncio de NVIDIA se distingue explícitamente entre “adopción en producción” y “en evaluación”:

Adoptados en producción: Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn (鴻海), H Company, Palantir, Pyler

En evaluación: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr, etc.

El CEO de H Company, Gautier Cloix, emitió una declaración con nombre en el anuncio: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” Traducción: “Para construir agentes útiles, no puedes esperar segundos a que un modelo interprete una pantalla. Al construir sobre Nemotron 3 Nano Omni, nuestros agentes pueden interpretar rápidamente grabaciones de pantalla en Full HD — algo que antes no era práctico.”

Estrategia de código abierto y despliegue: weights / datasets / métodos de entrenamiento, todo público

Al momento de su lanzamiento, NVIDIA dio a conocer:

Pesos del modelo

Conjunto de datos de entrenamiento

Tecnologías/técnicas y metodología de entrenamiento

El canal de despliegue abarca tres capas:

Estaciones de trabajo locales: NVIDIA DGX Spark, DGX Station

Microservicios NIM: build.nvidia.com

Plataformas de terceros: Hugging Face, OpenRouter, y mediante más de 25 NVIDIA Cloud Partners, plataformas de inferencia y proveedores de servicios en la nube

Las herramientas de personalización se usan con NVIDIA NeMo. La familia Nemotron 3 (Nano/Super/Ultra) acumuló descargas de más de 50 millones de veces en Hugging Face durante el año pasado; en esta ocasión, Omni extiende las capacidades de esa familia al ámbito multimodal y de agentes.

Este artículo sobre el lanzamiento de Nemotron 3 Nano Omni de NVIDIA como código abierto y multimodal apareció por primera vez en 鏈新聞 ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

El agente de IA Manfred forma una empresa y prepara una cartera de criptomonedas para operar a finales de mayo

El agente de IA Manfred ha formado su propia empresa y ha obtenido una billetera de criptomonedas junto con credenciales comerciales para contratar personal y realizar pagos, según los informes disponibles. El agente no tiene previsto comenzar a operar con cripto hasta finales de

GateNewsHace49m

MoonPay lanza la tarjeta MoonAgents en la red Mastercard este viernes

Según The Block, MoonPay lanzó la MoonAgents Card el viernes, una tarjeta virtual de débito Mastercard que permite que los agentes de IA y los usuarios gasten stablecoins directamente desde carteras onchain. La tarjeta se emite a través de Monavate, una plataforma global de pagos regulada y miembro principal de Mastercard, en

GateNewshace3h

137 Ventures cierra $700M en nuevos fondos; AUM alcanza 15.000 millones de USD

Según ChainCatcher, 137 Ventures, un inversor inicial en SpaceX, recientemente completó la recaudación de fondos para dos nuevos fondos con un total de más de 700 millones de dólares, elevando sus activos bajo gestión a más de 15 mil millones de dólares. El nuevo capital se destinará a inversiones en agentes de IA, robótica y propulsión espacial

GateNewshace4h

Reddit se dispara un 16% con una sólida perspectiva para el 2T; Apple enfrenta un déficit de Mac mientras la demanda de IA supera el suministro

Las acciones de Reddit subieron un 16% antes de la apertura del mercado el viernes después de que la empresa emitiera una guía de ingresos para el próximo trimestre superior a la esperada. Los visitantes activos diarios crecieron un 17% hasta 126,8 millones, mientras que los ingresos medios por usuario a nivel mundial aumentaron un 44%, impulsados por la IA,

GateNewshace4h

Visa lanza el programa agentic ready en Hong Kong el 1 de mayo, habilitando pagos con agentes de IA

Según el medio de Hong Kong Ming Pao, Visa lanzó el programa Visa Agentic Ready en Hong Kong el 1 de mayo, permitiendo pagos con agentes de IA. El programa aprovecha la tokenización, la verificación de identidad, la gestión de riesgos y los mecanismos de autorización. Los participantes iniciales incluyen

GateNewshace7h

OpenClaw lanza v2026.4.29 el 29 de abril, actualiza la memoria a un wiki personalizado con seguimiento de relaciones

De Beating, el asistente de IA de código abierto OpenClaw (GitHub 367K estrellas) lanzó v2026.4.29 el 29 de abril, marcando su segunda actualización en dos días. El sistema de memoria evolucionó de un simple recordatorio basado en recuperación a una wiki personalizada, lo que permite a los agentes construir automáticamente perfiles de personajes y rastrear r

GateNewshace16h
Comentar
0/400
Sin comentarios