Система винагород OpenAI ненавмисно оцінює ланцюги міркувань на 6 моделях, зокрема GPT-5.4

За даними команди з узгодження (alignment) OpenAI, компанія нещодавно виявила критичну помилку під час тренування, що вплинула на 6 великих мовних моделей, зокрема GPT-5.4 Thinking: механізм винагороди випадково виставляв оцінку ланцюгам мислення — внутрішньому процесу міркування перед формуванням відповідей. GPT-5.5 не зазнав впливу. Інцидент порушує базовий принцип безпеки ШІ, згідно з яким ланцюги мислення ніколи не можна оцінювати, адже це може спонукати моделі вигадувати міркування, щоб отримувати вищі бали.

Помилкова система оцінювання некоректно враховувала ланцюги мислення під час перевірки того, чи були відповіді корисними, або чи моделі могли бути скомпрометовані атаками. Задіяні навчальні приклади становили максимум 3,8% від набору даних. OpenAI усунула вразливість і провела порівняльні експерименти, які підтвердили, що моделі не розвинули оманливої поведінки. Компанія розгорнула автоматизовану систему сканування в усіх конвеєрах тренування, щоб запобігти повторенню.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів