เมื่อวันที่ 8 พฤษภาคม OpenAI เผยแพร่การศึกษารูปแบบใหม่ โดยเปิดเผยว่าระหว่างกระบวนการฝึกการเรียนรู้เชิงเสริมแรง (RL) บริษัทได้ “ให้คะแนนอย่างไม่ตั้งใจ” ต่อ chain of thought (CoT) ของบางโมเดล ซึ่งอาจส่งผลต่อความสามารถในการตรวจสอบการจัดแนวของ AI Agent (alignment) ทีมงาน OpenAI Alignment รายงานว่า การคงไว้ซึ่งความสามารถในการตรวจสอบ CoT เป็นด่านป้องกันสำคัญในปัจจุบันต่อการรับมือกับความล้มเหลวของการจัดแนวของ AI Agent ในการออกแบบการฝึก RL ของ OpenAI นั้น ตั้งใจหลีกเลี่ยงการลงโทษ “การให้เหตุผลที่จัดแนวล้มเหลว” ของโมเดล เพื่อรักษาความสามารถในการตรวจสอบไว้
ทำไมการตรวจสอบ CoT จึงเป็นด่านป้องกันสำคัญของการจัดแนว AI Agent
ตรรกะหลักของการตรวจสอบ CoT มีดังนี้:
เมื่อ AI Agent ทำงาน โมเดลจะสร้าง “กระบวนการคิด” ภายใน และอธิบายว่าเหตุใดจึงต้องทำการกระทำบางอย่าง
ผู้ตรวจสอบสามารถอ่าน CoT เหล่านี้ เพื่อตัดสินว่าโมเดลมีสัญญาณของ “ความล้มเหลวของการจัดแนว” (misalignment) หรือไม่
หากโมเดลถูกฝึกโดยตรง “ไม่ให้แสดงความล้มเหลวของการจัดแนวใน CoT” แล้ว CoT อาจกลายเป็น “สะอาดแต่ไม่ตรงความจริง” และซ่อนเจตนาที่แท้จริงไว้
OpenAI ให้เหตุผลว่า ในการฝึกควรหลีกเลี่ยงการลงโทษ “การให้เหตุผลที่จัดแนวล้มเหลว” และคงความสามารถที่ CoT สะท้อนสถานะภายในที่แท้จริงไว้
“penalize misaligned reasoning” และ “preserve monitorability” คือแรงดึงหลักของการศึกษาชิ้นนี้—ผู้ฝึกต้องการให้พฤติกรรมของโมเดลจัดแนว แต่หากลงโทษ “ความคิดที่จัดแนวล้มเหลว” โดยตรง โมเดลจะเรียนรู้ที่จะซ่อนเจตนาอันไม่ซื่อสัตย์ ทำให้การตรวจสอบล้มเหลว
การให้คะแนน CoT แบบไม่ตั้งใจ: ผลกระทบต่อความสามารถในการตรวจสอบของโมเดลที่มีอยู่
การค้นพบเฉพาะที่รายงานโดย OpenAI ระบุว่า:
ในกระบวนการฝึกของบางโมเดลที่เผยแพร่แล้ว CoT ได้รับ “การให้คะแนนอย่างจำกัด” โดยไม่ตั้งใจ
การให้คะแนนอย่างไม่ตั้งใจ หมายถึง ในกระบวนการฝึก ระบบการให้คะแนนบางส่วนได้อ่านเนื้อหา CoT ไม่ได้พิจารณาแค่ผลลัพธ์สุดท้าย
ปรากฏการณ์นี้อาจทำให้โมเดลเรียนรู้ที่จะ “ซ่อนเหตุผลที่อาจถูกหักคะแนนใน CoT”
OpenAI เผยแพร่การวิเคราะห์ฉบับนี้ เพื่อให้ชุมชนวิจัยเข้าใจขอบเขตของปัญหาและแนวทางการจัดการในขั้นต่อไป
ข้อคิดเห็นอิสระของ Redwood Research ระบุว่า ผลกระทบของ CoT ต่อผู้ให้คะแนน ภายใต้เทคนิคการตรวจจับของ OpenAI “อ่อนเกินไปและตรวจไม่ค่อยพบ” แต่ด้วยขนาดของกระบวนการฝึกที่ใหญ่โต ผลกระทบจริงยังอาจเพียงพอที่จะทำให้ความสามารถในการตรวจสอบ CoT ของนโยบายที่ถูกฝึกแล้วเสียหายอย่างมีนัยสำคัญ กล่าวอีกนัยหนึ่ง ตอนนี้ยังยากที่จะพิสูจน์ว่าผลกระทบดังกล่าวลึกซỡงเพียงใด
ความหมายระยะยาวต่อความปลอดภัยของ AI Agent
การศึกษาครั้งนี้ชี้ไปที่วิธีการหลักของความปลอดภัยของ AI Agent:
การตรวจสอบ CoT เป็นหนึ่งในไม่กี่วิธีที่ทำได้สำหรับ “การตรวจจับความล้มเหลวของการจัดแนวระหว่างการทำงาน” และถูกมองว่าเป็นรากฐานสำคัญของงานวิจัยการจัดแนว
การออกแบบการฝึกต้องหลีกเลี่ยงไม่ให้ CoT กลายเป็น “บทละครที่โมเดลแสดงให้ผู้ตรวจสอบดู”
หากสายการอนุมานของโมเดลในอนาคตยาวขึ้น มูลค่าเชิงทฤษฎีของการตรวจสอบ CoT ก็จะยิ่งสูงขึ้น
แต่หากกระบวนการฝึกทำให้ความเป็นจริงของ CoT เสียหายโดยไม่ตั้งใจ ด่านป้องกันนี้อาจถูกทำให้อ่อนลงโดยไม่รู้ตัว
เหตุการณ์ที่ติดตามได้ในขั้นต่อไป: การจัดการภายหลังกับโมเดลที่ได้รับผลกระทบของ OpenAI (เช่น การฝึกซ้ำหรือการทำเครื่องหมาย) วิธีการที่สอดคล้องกันของห้องทดลองขนาดใหญ่แห่งอื่น ๆ (Anthropic, Google DeepMind) และการทดลองเชิงยืนยันเพิ่มเติมเกี่ยวกับ “ความน่าเชื่อถือของการตรวจสอบ CoT” จากชุมชนวิจัยการจัดแนว
บทความนี้ที่ OpenAI เปิดเผยผลกระทบจากการให้คะแนน CoT อย่างไม่ตั้งใจ: การคงไว้ซึ่งการตรวจสอบ chain of thought คือด่านป้องกันสำคัญของการจัดแนว AI Agent เผยแพร่ครั้งแรกใน 鏈新聞 ABMedia
btc.bar.articles
NVIDIA เปิดตัวระบบนิเวศสำหรับการประมวลผลในอวกาศ พร้อมส่งพลังการคำนวณ AI ระดับศูนย์ข้อมูลขึ้นสู่อวกาศด้วย Space-1 Vera Rubin
Chrome ดาวน์โหลดโมเดล AI Gemini Nano ขนาดหลายกิกะไบต์โดยอัตโนมัติในวันที่ 9 พฤษภาคม จุดกระแสความกังวลด้านความปลอดภัยในชุมชนคริปโท
ผู้พิพากษาศาลสหรัฐฯ ตัดสินว่า DOGE ยุติการตัดงบให้ทุนโดยไม่ชอบหลังนำ ChatGPT และคำสำคัญด้าน DEI มาใช้ และสั่งระงับการบังคับใช้ในวันพฤหัสบดี
เจ้าหน้าที่ ECB กล่าวว่า ความเสี่ยงจาก AI กระตุ้นให้มีการทบทวนโครงสร้างพื้นฐานทางการเงินในวันเสาร์นี้
หุ้น Cloudflare ดิ่งลง 23.62% ในวันที่ 8 พฤษภาคม หลังประกาศผลประกอบการไตรมาส 1 และแผนปลดพนักงาน 1,100 คน