Artificial Analysis lanzó hoy un nuevo Coding Agent Index para evaluar cómo se desempeñan los modelos de IA cuando se combinan con marcos de agentes en puntos de referencia clave, incluidos SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 y SWE-Atlas-QnA. Zhipu GLM-5.1 ocupó el primer lugar entre los modelos de código abierto en la evaluación, demostrando un rendimiento líder en escenarios reales de agentes de programación.
Related News
OpenAI lanza el plan de ciberseguridad Daybreak, la arquitectura de tres capas GPT-5.5 para enfrentarse a Anthropic Mythos
Guía completa de Gemini 2026: toda la línea de productos de IA de Google, planes de suscripción y política de privacidad de un vistazo
Stanford crea Agent Island: Los modelos de IA en un juego estilo Survivor usan estrategias de traición y se eliminan mediante votaciones cruzadas