Точність GPT-5.4 знижується зі 100% до 54% на ARC-AGI після багаторазового підсумовування пам’яті

За Beating нещодавнє дослідження пам’яті агентів від Dylan Zhang, докторанта Університету Іллінойсу, показало, що повторне підсумовування досвіду моделі може погіршувати продуктивність, а не покращувати її. У завданнях ARC-AGI GPT-5.4 досяг 100% точності на 19 проблемах без пам’яті, але після кількох раундів компресії пам’яті на основі правильних траєкторій розв’язання точність знизилася до 54%. Аналогічно, у завданнях шопінгу WebShop метод AWM набрав 0,64 з 8 експертними траєкторіями, але впав до 0,20 зі 128 траєкторіями, повернувшись до базового рівня. Дослідження припускає, що проблема пов’язана з надмірним підсумовуванням: кожен крок абстрагування втрачає конкретні деталі й об’єднує правила, властиві саме цьому завданню, в узагальнені інструкції, що зрештою погіршує продуктивність моделі.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів