De acuerdo con Beating, un reciente estudio sobre la memoria de agentes de Dylan Zhang, estudiante de doctorado en la Universidad de Illinois, encontró que resumir repetidamente las experiencias del modelo puede degradar el rendimiento en lugar de mejorarlo. En tareas ARC-AGI, GPT-5.4 logró 100% de precisión en 19 problemas sin memoria, pero después de múltiples rondas de compresión de memoria basadas en trayectorias de solución correctas, la precisión cayó a 54%. De manera similar, en tareas de compras WebShop, el método de memoria AWM obtuvo 0,64 con 8 trayectorias de expertos, pero bajó a 0,20 con 128 trayectorias, regresando al nivel base. La investigación sugiere que el problema proviene de la sobresimplificación: cada paso de abstracción pierde detalles específicos y fusiona reglas específicas de la tarea en orientaciones genéricas, degradando finalmente el rendimiento del modelo.
Related News
Google: Los modelos de lenguaje de gran escala se utilizan para ataques reales; la IA puede eludir los mecanismos de seguridad de doble autenticación
Google revela el primer caso de vulnerabilidad de día cero creada por IA: los hackers buscan explotarla a gran escala para eludir 2FA
Stanford crea Agent Island: Los modelos de IA en un juego estilo Survivor usan estrategias de traición y se eliminan mediante votaciones cruzadas