Artificial Analysis publica un benchmark para agentes de codificación; Zhipu GLM-5.1 ocupa el primer lugar entre los modelos de código abierto

Artificial Analysis lanzó hoy un nuevo Coding Agent Index para evaluar cómo se desempeñan los modelos de IA cuando se combinan con marcos de agentes en puntos de referencia clave, incluidos SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 y SWE-Atlas-QnA. Zhipu GLM-5.1 ocupó el primer lugar entre los modelos de código abierto en la evaluación, demostrando un rendimiento líder en escenarios reales de agentes de programación.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios