Beating informó que Microsoft recientemente publicó como código abierto la familia de modelos Phi-Ground, diseñada para resolver el problema de dónde debe hacer clic la IA en una pantalla de computadora. La versión de 4 mil millones de parámetros, combinada con modelos lingüísticos más grandes para la planificación de instrucciones, superó la precisión de clic de OpenAI Operator y Claude Computer Use en el benchmark Showdown y quedó en el primer lugar entre todos los modelos de menos de 100 mil millones de parámetros en cinco evaluaciones, incluyendo ScreenSpot-Pro.
El equipo se entrenó con más de 40 millones de muestras de datos y descubrió que tres técnicas de entrenamiento comunes usadas en artículos académicos perdieron efectividad a escala. El enfoque clave resultó ser simple: generar coordenadas como números normales, como “523, 417”. Investigaciones previas inventaron vocabularios de posición especializados para coordenadas, pero no lograron escalar. El equipo también descubrió que colocar instrucciones de texto antes de las imágenes mejoró el rendimiento, ya que los modelos podían identificar los objetivos mientras procesaban los píxeles. Además, métodos de aprendizaje por refuerzo como DPO mejoraron la precisión incluso después del ajuste fino.
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el
Aviso legal.
Artículos relacionados
Sakana AI y Nvidia logran una inferencia 30% más rápida en H100 al omitir el 80% de los cálculos inválidos
Sakana AI y Nvidia han publicado TwELL como open-source, un formato de datos dispersos que permite a las GPU H100 omitir el 80% de los cálculos inválidos en modelos de lenguaje grandes sin perder precisión. La solución ofrece hasta un 30% más de velocidad en la inferencia y un 24% más rápida en el entrenamiento en H100, a la vez que reduce el uso máximo de memoria. En pruebas con un modelo de 1,5 mil millones de parámetros, el enfoque redujo las neuronas activas a menos del 2% mediante una regul
GateNewsHace25m
Tilde Research descubre que el optimizador Muon mata el 25% de las neuronas; la alternativa Aurora logra una ganancia de eficiencia de datos 100x
Según Tilde Research, el optimizador Muon adoptado por modelos de IA líderes, incluido DeepSeek V4 y Kimi K2.5, tiene una falla oculta: hace que más del 25% de las neuronas de la capa MLP mueran de forma permanente durante el entrenamiento inicial. El equipo diseñó Aurora, un optimizador alternativo, y lo publicó como código abierto. Un modelo de 1,1B parámetros entrenado con solo 100B tokens igualó el rendimiento de Qwen3-1.7B entrenado con 36T tokens en benchmarks de comprensión del lenguaje c
GateNewshace1h
Nvidia se compromete con más de 40 mil millones de dólares en inversiones de IA a principios de 2026, incluyendo 30 mil millones de dólares para OpenAI
Según TechCrunch, Nvidia comprometió más de 40 mil millones de dólares en inversiones de capital en empresas de IA en los primeros meses de 2026, con una inversión de 30 mil millones de dólares en OpenAI como el mayor compromiso individual. El fabricante de chips también prometió hasta 3,2 mil millones de dólares a la fabricante de vidrio Corning y hasta 2,1 mil millones de dólares al operador de centros de datos IREN, lo que incluye una warrant de cinco años y un contrato separado de 3,4 mil mi
GateNewshace4h
NVIDIA abre su socio de IA a largo plazo Deepinfra obtiene una ronda B de 107 millones de dólares para crear una «fábrica de tokens»
La startup de IA DeepInfra anunció la finalización de una ronda B de 107 millones de dólares, liderada por 500 Global y por Georges Harik, un ingeniero de Google en etapa temprana, con la participación de inversores estratégicos como NVIDIA (NVIDIA), Samsung Next y Supermicro. Según el comunicado oficial, la inyección se utilizará para ampliar la capacidad de centros de datos globales, para abordar los costos computacionales y los cuellos de botella de eficiencia a los que se enfrenta la IA cuan
ChainNewsAbmediahace5h
El miembro del Consejo de Gobierno del BCE, Escrivá, advierte riesgos de IA para la infraestructura financiera el 9 de mayo
El miembro del Consejo de Gobierno del BCE, Escrivá, declaró el 9 de mayo que los bancos centrales deben reevaluar la resiliencia de la infraestructura financiera y la solidez de la ciberseguridad a la luz de los avances de la inteligencia artificial. De acuerdo con sus comentarios en un evento, las recientes mejoras en IA obligan a replantear la capacidad de los sistemas financieros para resistir los riesgos emergentes.
GateNewshace5h
SpaceX renombra xAI a SpaceXAI, presenta una marca comercial de computación orbital antes de una IPO de 1,75 billones de dólares
De acuerdo con solicitudes de marca registradas presentadas ante la Oficina de Patentes y Marcas Registradas de Estados Unidos, la empresa de inteligencia artificial de Elon Musk, xAI, se está integrando en SpaceX bajo una nueva marca, SpaceXAI. El cambio de marca abarca centros de datos basados en satélites, computación orbital, computación en la nube y la gestión de cargas de trabajo de IA mediante plataformas basadas en el espacio. Musk confirmó que xAI se disolvería como una empresa independ
GateNewshace7h