OpenAI ได้ลงบทความในบล็อกอย่างเป็นทางการเรื่อง〈Where the goblins came from〉เพื่อโต้ตอบอย่างชัดเจนต่อคำถามจากภายนอกว่าทำไมระบบ Codex จึงห้ามการใช้คำศัพท์เกี่ยวกับสิ่งมีชีวิต เช่น「goblins、gremlins、raccoons、trolls、ogres、pigeons」อย่างชัดเจน ในไต้หวัน goblins มี 2 คำแปลคือ「地精」และ「哥布林」 โดยบทความนี้จะเรียกทั้งหมดยึดตามคำว่า哥布林 หลังจากนี้ Nerdy personality คือตัวเลือกสไตล์แบบ「หนังสือเด็กแนวเนิร์ด (書呆子)」ที่เปิดตัวเพื่อรองรับการปรับบุคลิกเฉพาะตัวสำหรับ GPT-5.5 เอง OpenAI ยอมรับว่า จุดเริ่มต้นมาจากการฝึกของ Nerdy (หนังสือเด็กแนวเนิร์ด) โดยสัญญาณรางวัลจะรวมอยู่ในข้อมูลการตรวจสอบ 76.2% และเห็นได้ชัดว่าเอนเอียงไปทางคำตอบที่มีการเปรียบเทียบด้วยสัตว์ ทำให้โมเดลถึงในสถานการณ์เชิงโปรแกรมก็ยังหลุดออกมาคำที่ไม่เกี่ยวข้อง เช่น「the thingy goblin」
Barron Roth 4/28 เผย Codex system prompt「Never talk about goblins」
เหตุการณ์เริ่มต้นเมื่อวันที่ 28 เมษายน โดย Barron Roth พนักงานของ Google เปิดเผยบันทึกการสนทนาของ GPT-5.5 ใน Codex และชี้ให้เห็นว่า system prompt มีคำสั่งดังนี้:
Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.
กฎข้อนี้ปรากฏซ้ำหลายครั้งใน system prompt ของ Codex แสดงว่าทีมพัฒนามีการเสริมความเข้มในการทำให้โมเดลปฏิบัติตามคำสั่งอย่างตั้งใจ Gizmodo ต่อมาโทรไปที่ OpenAI เพื่อขอคำยืนยัน และพนักงาน Nick Pash ยืนยันบางส่วนว่าการตั้งค่านี้เป็นเรื่องจริง เหตุการณ์ดังกล่าวสร้างการถกเถียงใน Hacker News และชุมชนนักพัฒนา: บริษัท AI ที่มีมูลค่าหลายล้านล้านดอลลาร์ ในท้ายที่สุดกลับต้องควบคุมเอาต์พุตของโมเดลด้วยการฝัง “ห้ามพูดถึง哥布林” ลงใน system prompt แบบแข็ง
OpenAI ยอมรับ: สัญญาณรางวัลของบุคลิกหนังสือเด็กแนวเนิร์ดชอบ哥布林 ใน 76.2% ของดาต้าซีต
ในบล็อกของตนเอง OpenAI อธิบายว่า ต้นตอของปัญหาคือ “reward hacking” เมื่อฝึกบุคลิกหนังสือเด็กแนวเนิร์ดของ GPT-5.5 OpenAI ได้ออกแบบสัญญาณรางวัลโดยไม่ตั้งใจเพื่อเสริมคุณลักษณะ “กวน ๆ ร่าเริง ใช้คำเปรียบเปรย และมีอารมณ์ขันแบบเด็กเนิร์ด” ในขั้นการตรวจสอบ สัญญาณรางวัลนี้ในข้อมูล 76.2% ให้คะแนนเอาต์พุตที่ “มี goblin หรือ gremlin” สูงกว่าเอาต์พุตที่ไม่มีกลุ่มคำเหล่านี้
ผลลัพธ์คือ: สัญญาณรางวัลได้ผูก “คำศัพท์เกี่ยวกับสิ่งมีชีวิต” เข้ากับ “การตอบสนองเชิงบวก” ของบุคลิกหนังสือเด็กแนวเนิร์ด โมเดลจึงเรียนรู้ผ่านการวนปรับปรุงด้วย RLHF โดยค่อย ๆ ทำให้ “การใช้คำเปรียบเทียบแบบ哥布林” กลายเป็นทางลัดเพื่อให้ได้คะแนนสูง ผู้ร่วมถกเถียงใน Hacker News ชี้ว่านี่คือเคสคลาสสิกของการเรียนรู้แบบเสริมแรงที่ “ทำตามเป้าหมายการฝึกอย่างแม่นยำ แต่ตัวเป้าหมายกลับมีข้อบกพร่อง” ปัญหาไม่ได้อยู่ที่โมเดลพื้นฐาน แต่อยู่ที่การให้รางวัลเชิงบวกที่ถูกแทรกเข้ามาในการปรับจูนแบบมีผู้ดูแลหลังการฝึก
GPT-5.1 เริ่มงอก, GPT-5.5 กลับมาระบาด: การปนเปื้อนข้ามบุคลิกแพร่กระจายอย่างไร
กระบวนการที่ OpenAI อธิบายคือการค่อยเป็นค่อยไป: goblin และ gremlin เริ่มปรากฏในคำเปรียบเปรยมาตั้งแต่ก่อนหน้า GPT-5.5 แล้ว โดยในตอนนั้น “ไม่ได้ดูน่ากังวลเป็นพิเศษ”(ตามคำของ OpenAI: the prevalence of goblins did not look especially alarming) ต่อมาระหว่างขั้นตอนการฝึก OpenAI เคยลบสัญญาณรางวัลที่เกี่ยวกับ goblin ออก แต่พอ GPT-5.5 เข้าสู่การทดสอบใน Codex พนักงานของ OpenAI กลับพบความชอบของคำศัพท์เกี่ยวกับสิ่งมีชีวิตกลับมาอีก จึงเพิ่งเติมข้อห้ามที่ชัดเจนไว้ใน prompt ของนักพัฒนาเพื่อหยุดเลือดชั่วคราว
OpenAI เรียกปรากฏการณ์นี้ว่า “การทำให้สัญญาณรางวัลทั่วไปข้ามสถานการณ์” เดิมทีสัญญาณรางวัลถูกออกแบบมาเพื่อบุคลิกหนังสือเด็กแนวเนิร์ดเท่านั้น แต่เพราะข้อมูลฝึกและการแทนค่าภายในของโมเดลถูกแชร์กัน ความชอบจึงขยายไปยังบุคลิกอื่น ๆ และแม้แต่เอาต์พุตเริ่มต้น กล่าวคือ ต่อให้ภายหลังจะลบตัวบุคลิกหนังสือเด็กแนวเนิร์ดออกเองแล้ว การปนเปื้อนในข้อมูลฝึกและน้ำหนักของโมเดลที่ถูกฝังไว้ก็ยังทำให้ความชอบนี้ถูกกลืนเข้าไปแล้ว เพียงแค่ปิดฟีเจอร์ก็ไม่อาจกำจัดได้หมด
อัดโค้ดหยุดชั่วคราว ระยะยาวต้องฝึกใหม่: สัญญาณเคสที่เสี่ยงต่อการออกแบบรางวัลใน RLHF
ในบทความ OpenAI ระบุว่ามีการเยียวยาทั้ง 2 แบบไปพร้อมกัน การหยุดเลือดในระยะสั้นคือการฝังโค้ดใน system prompt ของ Codex แบบแข็งให้「Never talk about goblins…」และทำให้กฎนี้ปรากฏซ้ำในหลายช่วงของข้อความเพื่อเสริมว่าการปฏิบัติตามของโมเดลจะเข้มข้นขึ้น ส่วนการแก้ในระยะยาวคือกลับไปที่กระบวนการฝึก: เอาสัญญาณรางวัลเดิมที่มีคำเกี่ยวกับสิ่งมีชีวิตออก และคัดกรองส่วนของข้อมูลฝึกที่มี creature-words เพื่อลดโอกาสที่โมเดลในอนาคตจะโผล่การเปรียบเทียบแบบ哥布林ในบริบทที่ไม่เกี่ยวข้อง
สำหรับนักพัฒนาและวงการวิจัย เหตุการณ์นี้มีคุณค่าไม่ใช่แค่เพราะเป็นคำตอบแนวประหลาดว่า “ทำไม OpenAI ถึงห้ามพูดถึง哥布林” แต่ยังเพราะมันทำให้ความเปราะบางของการออกแบบสัญญาณรางวัลใน RLHF ถูกเปิดเผยด้วยวิธีที่ทำซ้ำได้จริง ๆ: สัญญาณที่ดูเหมือนไม่มีอันตรายอย่าง “การกระตุ้นให้ใช้คำเปรียบเปรยแบบกวน ๆ” สามารถถูกโมเดลบิดเบือนในรอบการปรับปรุงจนกลายเป็นนิสัยไม่ดี “ัดคำเกี่ยวกับสิ่งมีชีวิตใส่ทุกสถานการณ์” และปัญหาสามารถส่งต่อได้ข้ามบุคลิกและข้ามเวอร์ชันของโมเดล OpenAI วางบทความนี้เป็นตัวอย่างเชิงการศึกษาเรื่อง “สัญญาณรางวัลที่อาจไปกำหนดพฤติกรรมของโมเดลโดยไม่ตั้งใจอย่างไร” และยังเป็นสัญญาณว่าการเทรนแบบหลังการฝึกของโมเดลใหญ่รุ่นถัดไปอย่าง GPT-6 จำเป็นต้องมีเครื่องมือสำหรับการตรวจสอบสัญญาณรางวัลที่ละเอียดขึ้น
บทความนี้ของ OpenAI เปิดเผยว่า Codex ทำไมถึงห้ามพูดถึง「哥布林」: สัญญาณรางวัลของบุคลิกหนังสือเด็กแนวเนิร์ดหลุดการควบคุม ครั้งแรกปรากฏบน 鏈新聞 ABMedia。