La precisión de GPT-5.4 cae de 100% a 54% en ARC-AGI tras la resumir repetidamente la memoria

De acuerdo con Beating, un reciente estudio sobre la memoria de agentes de Dylan Zhang, estudiante de doctorado en la Universidad de Illinois, encontró que resumir repetidamente las experiencias del modelo puede degradar el rendimiento en lugar de mejorarlo. En tareas ARC-AGI, GPT-5.4 logró 100% de precisión en 19 problemas sin memoria, pero después de múltiples rondas de compresión de memoria basadas en trayectorias de solución correctas, la precisión cayó a 54%. De manera similar, en tareas de compras WebShop, el método de memoria AWM obtuvo 0,64 con 8 trayectorias de expertos, pero bajó a 0,20 con 128 trayectorias, regresando al nivel base. La investigación sugiere que el problema proviene de la sobresimplificación: cada paso de abstracción pierde detalles específicos y fusiona reglas específicas de la tarea en orientaciones genéricas, degradando finalmente el rendimiento del modelo.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios