За Beating нещодавнє дослідження пам’яті агентів від Dylan Zhang, докторанта Університету Іллінойсу, показало, що повторне підсумовування досвіду моделі може погіршувати продуктивність, а не покращувати її. У завданнях ARC-AGI GPT-5.4 досяг 100% точності на 19 проблемах без пам’яті, але після кількох раундів компресії пам’яті на основі правильних траєкторій розв’язання точність знизилася до 54%. Аналогічно, у завданнях шопінгу WebShop метод AWM набрав 0,64 з 8 експертними траєкторіями, але впав до 0,20 зі 128 траєкторіями, повернувшись до базового рівня. Дослідження припускає, що проблема пов’язана з надмірним підсумовуванням: кожен крок абстрагування втрачає конкретні деталі й об’єднує правила, властиві саме цьому завданню, в узагальнені інструкції, що зрештою погіршує продуктивність моделі.
Related News
Google: великі мовні моделі використовують для реальних атак, AI може обходити механізми захисту з двофакторною автентифікацією
Google розкрила перший випадок, коли AI створив нульовий день: хакери прагнуть масово використати, щоб обійти 2FA
Стэнфорд запустив Agent Island: AI-моделі в іграх у стилі Survivor вдаються до стратегічних зрад і взаємного голосування за усунення