За даними команди з узгодження (alignment) OpenAI, компанія нещодавно виявила критичну помилку під час тренування, що вплинула на 6 великих мовних моделей, зокрема GPT-5.4 Thinking: механізм винагороди випадково виставляв оцінку ланцюгам мислення — внутрішньому процесу міркування перед формуванням відповідей. GPT-5.5 не зазнав впливу. Інцидент порушує базовий принцип безпеки ШІ, згідно з яким ланцюги мислення ніколи не можна оцінювати, адже це може спонукати моделі вигадувати міркування, щоб отримувати вищі бали.
Помилкова система оцінювання некоректно враховувала ланцюги мислення під час перевірки того, чи були відповіді корисними, або чи моделі могли бути скомпрометовані атаками. Задіяні навчальні приклади становили максимум 3,8% від набору даних. OpenAI усунула вразливість і провела порівняльні експерименти, які підтвердили, що моделі не розвинули оманливої поведінки. Компанія розгорнула автоматизовану систему сканування в усіх конвеєрах тренування, щоб запобігти повторенню.
Related News
Джефф Кауфман: ШІ одночасно руйнує дві культури вразливостей у сфері безпеки, а 90-денний період заборони постачання обертається протилежним ефектом
OpenAI розкриває несподіваний вплив оцінок CoT: збереження ланцюжка міркувань є ключовим рубежем для узгодження AI-агентів
Кіберзахисників озброює GPT-5.5-Cyber від OpenAI