การประเมิน AISI: ความสามารถในการโจมตีบนโลกออนไลน์ของ GPT-5.5 เทียบเท่ากับ Anthropic Mythos

ChainNewsAbmedia

สถาบันความปลอดภัยเอไอแห่งสหราชอาณาจักร (AI Security Institute, AISI) เผยแพร่รายงานประเมินความสามารถในการโจมตีทางไซเบอร์ต่อ OpenAI GPT-5.5 เมื่อวันที่ 1 พฤษภาคม โดยระบุว่าอัตราความสำเร็จของ GPT-5.5 ในการทดสอบระดับ Expert อยู่ที่ 71.4%、ส่วน Anthropic Claude Mythos Preview อยู่ที่ 68.6% ซึ่งช่องว่างอยู่ในช่วงความคลาดเคลื่อนทางสถิติ นอกจากนี้ GPT-5.5 ยังเป็นระบบเอไอตัวที่สองต่อจาก Mythos ที่ทำการจำลองการบุกรุกทางไซเบอร์ของบริษัทแบบเต็มรูปแบบด้วยตัวเองในขั้นตอน AISI 32 ขั้นตอน “The Last Ones” AISI เตือนว่า ผลลัพธ์นี้ชี้ให้เห็นว่าความก้าวหน้าอย่างรวดเร็วของความสามารถในการโจมตีโดยเอไออาจเป็น “แนวโน้มภาพรวม” มากกว่ากรณีการพัฒนาครั้งเดียว

การทดสอบระดับ Expert:71.4% vs 68.6%、ช่องว่างอยู่ในช่วงความคลาดเคลื่อน

AISI คือสถาบันวิจัยด้านความปลอดภัยเอไอในสังกัดกระทรวงวิทยาศาสตร์ นวัตกรรม และเทคโนโลยีของสหราชอาณาจักร การทดสอบครั้งนี้เป็นการประเมินรอบล่าสุดที่ AISI ทำกับความสามารถเชิงรุกทางไซเบอร์ของโมเดลเอไอระดับ frontier ในหัวข้อระดับ Expert ที่ยากที่สุด GPT-5.5 มีอัตราความสำเร็จเฉลี่ย 71.4%、Mythos Preview 68.6% โดยทั้งสองมีความแตกต่างอยู่ในช่วงความคลาดเคลื่อนทางสถิติ ซึ่งหมายความว่าขณะนี้ความสามารถในการโจมตีของโมเดลเรือธงจาก OpenAI และ Anthropic มีความทัดเทียมกันอย่างเป็นรูปธรรมแล้ว

การจำลองการบุกรุกเครือข่ายองค์กร 32 ขั้นตอน “The Last Ones” เป็นหนึ่งในรายการประเมินที่ท้าทายที่สุดของ AISI:GPT-5.5 ทำภารกิจสำเร็จได้เอง 2 ครั้งจาก 10 ครั้ง (ไม่มีกำกับจากมนุษย์) ขณะที่ Mythos Preview ทำสำเร็จ 3 ครั้งจาก 10 ครั้ง โครงการนี้ในอดีตมีเพียง Mythos เท่านั้นที่ทำได้ และ GPT-5.5 คือโมเดลลำดับที่สองที่ผ่านเกณฑ์ ในการทดสอบอีกกรณี GPT-5.5 ใช้เวลาประมาณ 10 นาทีในการแก้โจทย์ด้านวิศวกรรมย้อนกลับ ขณะที่ผู้เชี่ยวชาญด้านความปลอดภัยของมนุษย์เฉลี่ยต้องใช้เวลา 12 ชั่วโมง

Universal jailbreak:กลุ่ม red team ใช้เวลา 6 ชั่วโมงในการพัฒนา ก็สามารถเลี่ยงการกรองคำถามที่เป็นอันตรายทั้งหมดได้

ในการทดสอบ AISI ยังพบเวกเตอร์โจมตีแบบ “universal jailbreak”(การหลุดขอบเขตคำสั่งแบบสากล):ในหมวดคำถามเครือข่ายที่เป็นอันตรายทั้งหมดที่ใช้ทดสอบ เวกเตอร์นี้สามารถชักจูงให้ GPT-5.5 สร้างเนื้อหาที่เป็นอันตราย รวมถึงสถานการณ์การสนทนาแบบ agentic หลายรอบ AISI ระบุว่า ผู้เชี่ยวชาญจากกลุ่ม red team ใช้เวลาประมาณ 6 ชั่วโมงในการพัฒนา jailbreak นี้

สำหรับ OpenAI การมีอยู่ของ universal jailbreak นี้หมายความว่า แม้จะมีการใช้งาน GPT-5.5-Cyber ในสถานการณ์ที่จำกัดการเข้าถึง เช่น โครงการ trusted access ก็ยังอาจถูกคู่ต่อสู้ที่มีความชำนาญทางเทคนิคเลี่ยงได้ OpenAI ได้เปิดเผยการประเมินที่เกี่ยวข้องกับความปลอดภัยทางไซเบอร์ใน system card ของ GPT-5.5 แล้ว แต่การประเมินอิสระจาก AISI ในฐานะผู้ประเมินบุคคลที่สามให้มาตรฐานเชิงวิชาการที่น่าเชื่อถือกว่าด้วยมุมมองแบบ peer

สิ่งที่ต้องจับตาต่อไป:กำหนดการประเมินรอบถัดไปของ AISI และการตอบสนองของ OpenAI ต่อ jailbreak

ประเด็นที่จะจับตาต่อไปคือกำหนดการประเมินโมเดลระดับ frontier รอบถัดไปของ AISI หลัง Mythos และ GPT-5.5 ตลอดจน OpenAI จะมีการอัปเดตที่ตรงเป้าต่อ universal jailbreak ที่เปิดเผยครั้งนี้หรือไม่ในเดือนพฤษภาคม AISI ระบุอย่างชัดเจนในบทสรุปรายงานว่า “หากความสามารถเชิงรุกทางไซเบอร์เป็นผลพลอยได้จากการพัฒนาความสามารถในการคิดเชิงตรรกะ การเขียนโค้ด และงานที่ทำได้ด้วยตัวเองมากขึ้น ความก้าวหน้าหลังจากนี้อาจมาถึงด้วยจังหวะที่เร็วขึ้น” ข้อสังเกตนี้หมายความว่าในอีกไม่กี่เดือนข้างหน้า โมเดลระดับ frontier อาจเข้าสู่เกณฑ์ระดับ “Mythos” อีกครั้ง

บทความนี้ AISI ประเมิน:ความสามารถในการโจมตีทางไซเบอร์ของ GPT-5.5 ทัดเทียม Anthropic Mythos เผยแพร่ครั้งแรกที่ ลิงก์ข่าว ABMedia

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น