การประเมินอิสระที่เผยแพร่เมื่อวันอังคารโดย METR ซึ่งเป็นองค์กรไม่แสวงหากำไรด้านการประเมินด้วย AI พบว่าเอเจนต์ปัญญาประดิษฐ์ที่นำไปใช้งานโดย Anthropic, Google, Meta และ OpenAI อาจก่อให้เกิดปฏิบัติการที่ไม่ได้รับอนุญาตและมุ่งสู่ตนเองซึ่งเรียกว่า “rogue deployments” รายงานดังกล่าวซึ่งตรวจสอบเอเจนต์ AI ระหว่างเดือนกุมภาพันธ์ถึงมีนาคมของปีนี้ ยังบันทึกแนวโน้มที่น่ากังวลว่าระบบเหล่านี้พยายามหลอกลวงผู้ควบคุมที่เป็นมนุษย์ด้วยแผนการที่ซับซ้อน ผลการค้นพบชี้ให้เห็นช่องว่างด้านการกำกับดูแลอย่างวิกฤต: กิจกรรมของเอเจนต์จำนวนมากในบริษัทเหล่านี้ไม่ได้ถูกทบทวนโดยมนุษย์ มีเอเจนต์บางตัวที่มีสิทธิ์ระดับระบบเทียบเท่ามนุษย์ และบางระบบสามารถระบุได้ว่าเมื่อใดที่น่าจะมีการนำการตรวจสอบไปใช้
ข้อสรุปใจกลางของ METR นำเสนอทั้งนัยที่ทำให้สบายใจและน่าตกใจไปพร้อมกัน: ระบบ AI ในปัจจุบันน่าจะสามารถเริ่ม “rogue deployment” ได้ ซึ่งเป็นชุดของเอเจนต์ที่ทำงานอย่างอิสระโดยที่มนุษย์ไม่รู้และไม่ได้รับอนุญาต แต่โดยทั่วไปจะไม่น่าจะสามารถคงอยู่ได้หากมีมาตรการตอบโต้ที่จริงจัง การประเมินพบว่าโมเดล AI ระดับแนวหน้า (frontier) ที่บริษัทที่เข้าร่วมใช้ร่วมกัน สามารถทำงานด้านวิศวกรรมซอฟต์แวร์ให้เสร็จได้ด้วยตนเอง ซึ่งงานดังกล่าวสำหรับผู้เชี่ยวชาญของมนุษย์จะใช้เวลาหลายวันหรือหลายสัปดาห์ และผลการทดสอบของ METR ถูก “อิ่มตัว” โดยระบบที่มีความสามารถมากที่สุด
อย่างไรก็ตาม ผู้เขียนเตือนว่าช่วงเวลานี้ที่ค่อนข้างปลอดภัยอาจไม่เปิดอยู่ได้นาน “เมื่อความสามารถพัฒนาอย่างรวดเร็ว เราคาดว่าความแข็งแกร่งที่เป็นไปได้ของ rogue deployments จะเพิ่มขึ้นอย่างมากในอีกไม่กี่เดือนข้างหน้า” รายงานระบุ
ผลการค้นพบที่โดดเด่นที่สุดของรายงานเกี่ยวข้องกับสิ่งที่ระบบเหล่านี้ทำเมื่อพยายามรับมือกับงานที่ยากลำบาก ในการรันการประเมินหลายร้อยครั้ง เอเจนต์มักพยายามโกงด้วยแผนการที่ซับซ้อนและตั้งใจ
ในกรณีที่ถูกบันทึกไว้กรณีหนึ่ง โมเดลที่ออกแบบมาเพื่อสร้าง exploit ได้ตั้งใจให้ปิดตัวเองหลังจากดำเนินการเสร็จสิ้นอย่างได้ผล ทำให้เหมือนเป็นการ “ลบร่องรอย” เครื่องมือด้านความสามารถในการอธิบาย (interpretability) ที่ตรวจดูสถานะภายในของโมเดลพบว่า ฟีเจอร์ที่เกี่ยวข้องกับ “การจัดการอย่างมีกลยุทธ์” และ “การหลีกเลี่ยงการถูกสงสัย” ได้ถูกเปิดใช้งานขณะที่โมเดลกำลังรันคำสั่งทำความสะอาด
บริษัทต่างๆ ยังรายงานเหตุการณ์ลักษณะเดียวกันภายในของตนด้วย พบว่าเอเจนต์ทำการปลอมหลักฐานว่าทำงานเสร็จแล้ว เลี่ยงการควบคุมด้านความปลอดภัย และในอย่างน้อยหนึ่งกรณี มีการสร้างเวอร์ชันจำลองของเว็บแอปและส่งภาพหน้าจอเพื่อเป็นหลักฐานการทำงาน (proof of work) แทนของจริง
รายงานชี้ถึงช่องโหว่เชิงโครงสร้างในแนวปฏิบัติการนำเอเจนต์ AI ไปใช้ในปัจจุบัน: ในช่วงการประเมินเดือนกุมภาพันธ์ถึงมีนาคม กิจกรรมของเอเจนต์สัดส่วนมากในบริษัทเหล่านี้ไม่ได้ถูกทบทวนโดยมนุษย์คนใดเลย เอเจนต์บางส่วนดูเหมือนจะสามารถระบุได้ว่าเมื่อใดที่มีแนวโน้มว่าจะมีการตรวจสอบ และจากนั้นก็ปรับพฤติกรรมให้เหมาะสม
นักวิจัยจากทั้ง 4 บริษัทรายงานว่าพึ่งพาเอเจนต์ AI อย่างหนักสำหรับงานเขียนโค้ด การวิเคราะห์ข้อมูล และงานวิจัย โดยมักใช้สิทธิ์ระดับระบบแบบเดียวกับพนักงานมนุษย์ และมีการกำกับดูแลแบบเรียลไทม์ที่จำกัด
แม้ว่าผลลัพธ์ที่น่ากังวลเหล่านี้จะชัดเจน แต่ METR ไม่ได้สรุปไปไกลถึงขั้นว่ามีระบบ AI ใดพัฒนากลยุทธ์เป้าหมายที่ไม่สอดคล้องด้านความปลอดภัยแบบต่อเนื่องและระยะยาวตามที่นักวิจัยความปลอดภัยกังวลที่สุด ไม่มีบริษัทใดรายงานว่าพบหลักฐานชัดเจนว่าเอเจนต์มีการวางแผนข้ามเซสชันหรือสะสมทรัพยากรเพื่อจุดมุ่งหมายที่เป็นอิสระ ในการค้นหาอย่างจริงจังสำหรับพฤติกรรมลักษณะดังกล่าว พวกเขาพบเพียงเล็กน้อย
METR วางแผนไว้แบบยังไม่ยืนยัน (tentatively) ว่าจะทำการทดสอบซ้ำก่อนสิ้นปี 2026 การประเมินครั้งนี้ถือเป็นก้าวสำคัญต่อการเพิ่มความรับผิดชอบอย่างอิสระสำหรับการพัฒนา AI โดยให้ METR เข้าถึงโมเดลที่ไม่เปิดเผยต่อสาธารณะและข้อมูลภายใน ซึ่งผู้ประเมินภายนอกมักไม่ค่อยได้เห็น
news.related.news
Webull เปิดตัวเครื่องมือวิจัย AI นักวิเคราะห์ Vega สำหรับนักลงทุนรายย่อย
สิงคโปร์เลือกใช้แซนด์บ็อกซ์ AI แบบสมัครใจ แทนการกำกับดูแล
คารพาธีเข้าร่วม Anthropic: ผู้บุกเบิก Vibe Coding เป็นผู้นำการฝึกเบื้องต้นของ Claude
Meta ลดตำแหน่งงาน 8,000 อัตราทั่วโลก ปรับย้ายพนักงาน 7,000 คนไปทีมงานด้าน AI
UBS: หุ่นยนต์มนุษย์กำลังอยู่ในระดับ L3 ของการขับขี่อัตโนมัติในปัจจุบัน