Según Beating, Nvidia lanzó su modelo lingüístico grande insignia Nemotron 3 Ultra el 4 de junio, con 550 mil millones de parámetros totales y 55 mil millones de parámetros activos. El modelo obtiene 48 en el índice de inteligencia de Artificial Analysis, lo que lo convierte en el modelo de código abierto de EE. UU. con mejor rendimiento, solo superado por Kimi K2.6, que logra 54 puntos.
El modelo utiliza una arquitectura híbrida MoE (Mamba-Transformer) que alterna capas de espacio de estados Mamba-2 con capas de atención Transformer, permitiendo una ventana de contexto de 1 millón de tokens y evitando el crecimiento cuadrático de la caché KV. En comparación con modelos densos de escala similar, la arquitectura híbrida logra 5 veces más rendimiento y un 30% menos de costos de inferencia en tareas de agentes. Nemotron 3 Ultra está disponible en Hugging Face, NVIDIA NIM y OpenRouter.