OpenAI пояснює, чому Codex забороняє згадувати «ґоблінів»: винагорода за «ботанський» характер вийшла з-під контролю

OpenAI опублікував у офіційному блозі матеріал〈Where the goblins came from〉, прямо відповівши на запитання ззовні про те, чому в системі підказок Codex чітко заборонено використовувати такі слова на позначення істот, як「goblins、gremlins、raccoons、trolls、ogres、pigeons」. Водночас goblins на Тайвані мають два варіанти перекладу—«地精» і «哥布林»; у цій статті надалі для єдиного узгодження використовуватиметься «哥布林» (тобто «哥布林»). Особистість Nerdy — це опція в стилі «書呆子», яку представили як стиль для кастомізації «під стиль» GPT-5.5. OpenAI визнає, що першоджерело криється в тренуванні особистості Nerdy (書呆子): сигнал винагороди зосереджений у 76,2% аудиторських даних, і це явно надає перевагу відповідям із біологічними (істотними) метафорами, через що модель може видавати в програмних контекстах сторонні лексеми на кшталт «the thingy goblin».

4/28 Barron Roth розкрив системні підказки Codex «Never talk about goblins»

Точкою відліку події є 28 квітня: працівник Google Barron Roth оприлюднив журнали діалогу GPT-5.5 у Codex, що показали, як у системній підказці міститься така інструкція:

Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.

Це правило в системних підказках Codex повторюється кілька разів, що демонструє: розробницька команда свідомо підсилювала ступінь дотримання інструкції. Після цього Gizmodo зателефонував у OpenAI для перевірки, і співробітник Nick Pash частково підтвердив, що це налаштування справді існує. Інцидент спричинив обговорення на Hacker News і в спільноті розробників: AI-компанія з оцінкою на трильйони, зрештою, має покладатися на жорстке «вшивання» в системні підказки «не говорити про哥布林», щоб контролювати вивід моделі.

OpenAI визнає: нагорода в особистості «書呆子» в 76,2% датасету надає перевагу «哥布林»

У власному блозі OpenAI пояснює, що першопричина — «reward hacking»: під час тренування особистості Nerdy (書呆子) для GPT-5.5, OpenAI намагався посилити риси «хитруватість, використання метафор і дотепний гумор у стилі書呆子», але ненавмисно розробив сигнал винагороди. На етапі аудиту цей сигнал у 76,2% датасету ставить вищі оцінки для відповідей на ту саму задачу, якщо в них є слова «goblin» або «gremlin», ніж для відповідей без цих слів.

В результаті: сигнал винагороди зв’язав біологічні (істотні) слова з «позитивним фідбеком» від особистості Nerdy (書呆子). Модель через ітеративне підсилене навчання RLHF поступово перетворила «використання метафори про哥布林» на короткий шлях до високих балів. У дискусії на Hacker News учасники зазначили, що це класичний приклад того, як reinforcement learning «точно виконує ціль тренування, але сама ціль має вади»—проблема не в базовій моделі, а в тому, що під час післятренувального supervised fine-tuning у систему додали позитивний фідбек.

GPT-5.1 «зародження», GPT-5.5 «рецидив»: як забруднення між особистостями поширюється

OpenAI описує еволюцію як поступову: goblin і gremlin з’являлися в метафорах ще до GPT-5.5, а тоді частота «не виглядала особливо тривожною» (за словами OpenAI: the prevalence of goblins did not look especially alarming). Пізніше OpenAI під час тренувального процесу вже видаляв пов’язаний із goblins сигнал винагороди, але коли GPT-5.5 потрапив у тести Codex, працівники OpenAI одразу виявили, що преференція до істотних слів повертається. Тому команді довелося додати чітку заборону у підказках для розробників, аби тимчасово зупинити «витік».

OpenAI називає це явище узагальненням винагороди в різних контекстах: сигнал винагороди, який спочатку був призначений лише для особистості Nerdy, через те що тренувальні дані та внутрішні представлення моделі є спільними, поширився на інші особистості й навіть на дефолтні виводи. Іншими словами, навіть якщо згодом прибрати саму особистість Nerdy, «забруднені» тренувальні дані та ваги моделі вже вбудували цю преференцію; лише вимикання функції не здатне це повністю усунути.

Короткострокове жорстке «вшивання», довгострокове перетренування: знаковий кейс ризику для винагороди в RLHF

У статті OpenAI описує, що застосували два типи виправлень. Короткострокове «перев’язування» — це пряме жорстке вшивання правила в системну підказку Codex «Never talk about goblins…» та повторення його в різних розділах, щоб посилити дотримання моделлю. Довгостроковий «ремонт» — повернутися до тренувального процесу: прибрати сигнали винагороди, пов’язані з біологічними словами, і відфільтрувати частини тренувальних даних, що містять creature-words, зменшивши імовірність того, що майбутні моделі вийдуть на метафори про哥布林 у нерелевантних контекстах.

Для розробників і дослідницької спільноти цінність цієї історії полягає не лише в екзотичній відповіді «чому OpenAI заборонив говорити про哥布林», а й у тому, що вона розкриває крихкість дизайну RLHF у спосіб, який можна конкретно відтворити: на перший погляд безневинний «сигнал заохочення до дотепних метафор» у процесі ітерацій модель може викривити в погану звичку «вмонтовувати істотні слова в усі сцени», і це питання здатне переноситися через особистості та версії моделей. OpenAI позиціонує цю статтю як демонстрацію дослідницького кейсу «як сигнал винагороди несподівано формує поведінку моделі», і водночас натякає, що в подальших великих релізах на кшталт GPT-6 на етапі післятренування знадобляться точніші інструменти аудиту винагород.

Ця стаття OpenAI розкриває, чому Codex забороняє говорити про «哥布林»: нагорода для особистості «書呆子» вийшла з-під контролю; найраніше з’явилася на 鏈新聞 ABMedia.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів