Según Beating, la firma de evaluación de IA Vals AI lanzó su benchmark de agente financiero de segunda generación v2 el 14 de mayo, poniendo a prueba flujos de trabajo de análisis financiero mediante 927 preguntas revisadas por expertos. GPT-5.5 encabezó el ranking con una tasa de acierto del 51,76%, seguido de cerca por Claude Opus 4.7 (51,51%) y Claude Sonnet 4.6 (51,03%). La prueba exigía que los modelos localizaran de forma independiente secciones relevantes a través de cientos de páginas de estados financieros 10-K y 10-Q, y completaran cálculos de varios pasos con cifras intermedias precisas.
Bajo estrictos criterios de calificación que requieren respuestas completamente correctas, las tasas de acierto de todos los modelos líderes cayeron por debajo del 40%, y las categorías más difíciles—modelado financiero y análisis de precedentes—alcanzaron solo 23% como máximo. Entre otros modelos, Kimi K2.6 ocupó el quinto lugar con 44,87%, seguido por GLM 5.1 (44,79%) y DeepSeek V4 (44,08%). En comparación con la versión anterior, donde Opus 4.7 obtuvo 64,4%, la caída significativa subraya que, si bien la IA gestiona la recuperación sencilla, todavía está lejos de reemplazar a los analistas humanos en el complejo ámbito de las finanzas que exige precisión numérica estricta.