สถาบันวิจัยความปลอดภัยด้านเอไอของสหราชอาณาจักร (AISI) รายงานผลการประเมินล่าสุดว่า โมเดลของ Anthropic อย่าง Claude Mythos Preview สามารถทำการจำลองการโจมตีเครือข่ายทางธุรกิจแบบครบ 32 ขั้นตอนได้อย่างอิสระในสภาพแวดล้อมที่มีการควบคุม โดยทำได้อัตราความสำเร็จ 73% ในความท้าทายแบบ CTF ระดับผู้เชี่ยวชาญ ซึ่งถือเป็นสัญญาณว่า ความสามารถในการโจมตีเครือข่ายด้วยเอไอได้ก้าวข้ามเกณฑ์สำคัญแล้ว
(เรื่องราวก่อนหน้า: Claude รองรับอย่างเป็นทางการในการแก้ไขไฟล์ Word, เวิร์กโฟลว์ถูกบันทึกเป็นทักษะ skill, การบูรณาการชุดซอฟต์แวร์ Microsoft Office ครบทั้งสามอย่างเสร็จสิ้น)
(ข้อมูลเสริมด้านพื้นหลัง: รายงานฉบับพันหน้าของดัชนีเศรษฐกิจ AI ของ Anthropic: ความถี่เวิร์กโฟลว์การเทรดแบบอัตโนมัติเพิ่มเป็นสองเท่า คลอดนี้ Claude กำลังเปลี่ยนจากเครื่องมือให้กลายเป็นผู้ช่วยชีวิต)

สารบัญบทความ

Toggle

การประเมิน CTF: อัตราผ่านระดับผู้เชี่ยวชาญ 73%
ผ่านการจำลองการโจมตีองค์กร 32 ขั้นตอน
ขอบเขตความสามารถ
ดาบสองคมและการรับมือขององค์กร

สถาบันวิจัยความปลอดภัยด้านเอไอของสหราชอาณาจักร (AISI) เผยแพร่รายงานการประเมินความสามารถด้านความปลอดภัยทางไซเบอร์ของ Anthropic Claude Mythos Preview ในวันที่ 13 ผลการประเมินแสดงว่า ในบริบทที่ความสามารถด้านการโจมตีเครือข่ายของโมเดลแนวหน้ามีการพัฒนาอย่างรวดเร็วต่อเนื่อง Mythos Preview สะท้อนถึงการกระโดดของความสามารถครั้งสำคัญอีกครั้ง

AISI ติดตามความสามารถในการโจมตีเครือข่ายด้วยเอไอมาตั้งแต่ปี 2023 โดยค่อย ๆ สร้างระบบการประเมินที่เพิ่มระดับความยากขึ้นทุกปี: จากการสำรวจแบบสนทนาเบื้องต้น ไปจนถึงความท้าทายการจับธง (CTF) และต่อมาถึงการจำลองการโจมตีเครือข่ายแบบหลายขั้นตอนในปัจจุบัน ในการประเมินครั้งนี้ ใช้งบประมาณการอนุมานสูงสุด 100 ล้าน token เพื่อดำเนินการในสนามจำลองทางไซเบอร์ และประสิทธิภาพของ Mythos Preview ยังคงเติบโตอย่างต่อเนื่องภายในขีดจำกัดนี้

การประเมิน CTF: อัตราผ่านระดับผู้เชี่ยวชาญ 73%

Capture The Flag (CTF) คือหนึ่งในวิธีมาตรฐานสำหรับการประเมินความปลอดภัยทางไซเบอร์: โมเดลเอไอจะต้องค้นหาช่องโหว่ของระบบเป้าหมายและนำไปใช้เพื่อให้ได้ “ธง” (flag) ที่ซ่อนอยู่ ความท้าทายประเภทนี้จำลองขั้นตอนเทคนิคเดียวในสถานการณ์การโจมตีจริง ซึ่งเป็นตัวชี้วัดพื้นฐานในการวัดความสามารถด้านการทดสอบการเจาะระบบของโมเดล

ผลการประเมินแสดงว่า ในภารกิจ CTF ระดับผู้เชี่ยวชาญที่ “ไม่มีโมเดลใดทำได้ก่อนถึงเดือนเมษายน 2025” อัตราความสำเร็จของ Claude Mythos Preview อยู่ที่ 73% AISI ระบุว่า ตัวเลขนี้แสดงให้เห็นว่า โมเดลแนวหน้ามีความสุกงอมในระดับสูงแล้วในเทคนิคการโจมตีแบบจุดเดียวที่แยกออกมา

ผ่านการจำลองการโจมตีองค์กร 32 ขั้นตอน

อย่างไรก็ตาม CTF ระดับผู้เชี่ยวชาญทดสอบเพียงความสามารถเชิงเทคนิคเดียว การโจมตีทางไซเบอร์ในโลกจริงต้องเชื่อมต่อหลายสิบขั้นตอนระหว่างโฮสต์หลายเครื่องและส่วนเครือข่ายหลายช่วง การกระทำแบบต่อเนื่องเช่นนี้มักต้องใช้ผู้เชี่ยวชาญมนุษย์หลายชั่วโมง หลายวัน หรือแม้แต่หลายสัปดาห์ในการทำให้สำเร็จ

เพื่อให้เข้าใกล้สถานการณ์การโจมตีจริงมากขึ้น AISI ได้สร้างสนามจำลองการโจมตีเครือข่ายองค์กรที่เรียกว่า “ผู้รอดชีวิตคนสุดท้าย” (The Last Ones, TLO) TLO มีทั้งหมด 32 ขั้นตอน ครอบคลุมกระบวนการตั้งแต่การสำรวจเริ่มต้น ไปจนถึงการเข้าควบคุมเครือข่ายองค์กรได้อย่างครบถ้วน AISI ประเมินว่าผู้เชี่ยวชาญด้านมนุษย์ใช้เวลาประมาณ 20 ชั่วโมงในการทำกระบวนการนี้ให้สำเร็จ

Claude Mythos Preview กลายเป็นโมเดลตัวแรกในประวัติศาสตร์ที่ผ่าน TLO แบบครบตั้งแต่ต้นจนจบ ในการลองทั้งหมด 10 ครั้ง ทำได้ครบทั้ง 32 ขั้นตอนถึง 3 ครั้ง แม้จะรวมการลองที่ล้มเหลวด้วย จำนวนขั้นตอนเฉลี่ยที่ Mythos Preview ทำได้คือ 22/32 ในทางกลับกัน Claude Opus 4.6 ที่ได้ผลรองลงมา ทำได้เพียงเฉลี่ย 16 ขั้นตอนเท่านั้น

ผลการประเมินแสดงว่า ในสภาพแวดล้อมที่ควบคุมได้อย่างชัดเจน โดยมีคำสั่งระบุและได้รับสิทธิ์การเข้าถึงเครือข่าย Mythos Preview สามารถดำเนินการโจมตีแบบหลายขั้นตอนได้ และค้นพบรวมถึงใช้ประโยชน์จากช่องโหว่ได้อย่างอิสระ ซึ่งก่อนหน้านี้งานลักษณะดังกล่าวต้องใช้เวลาหลายวันของผู้เชี่ยวชาญด้านมนุษย์

ขอบเขตความสามารถ

AISI ยังเสริมว่ามีช่องว่างระหว่างกรอบการประเมินปัจจุบันกับโลกความเป็นจริง สนามจำลองในปัจจุบันขาดองค์ประกอบด้านการป้องกันที่พบได้บ่อยในสภาพแวดล้อมจริง: ไม่มีผู้ป้องกันที่เข้ามามีบทบาท ไม่มีกานวางเครื่องมือป้องกัน และการกระทำที่โมเดลดำเนินการอาจไปกระตุ้นสัญญาณเตือนด้านความปลอดภัย จะไม่ได้รับโทษหรือผลกระทบใด ๆ

AISI ยอมรับว่า “นี่หมายความว่าเราไม่สามารถยืนยันได้ว่า Mythos Preview จะสามารถโจมตีระบบที่มีการป้องกันอย่างสมบูรณ์แบบได้หรือไม่” คำอธิบายที่ถูกต้องที่สุดเกี่ยวกับความสามารถที่ Mythos Preview แสดงอยู่ในตอนนี้คือ: ภายใต้เงื่อนไขที่ได้รับจุดเข้าเครือข่ายแล้ว สามารถโจมตีระบบองค์กรที่มีขนาดเล็กกว่า ช่องโหว่ด้านการป้องกันน้อย และมีช่องโหว่ที่ทราบอยู่ได้อย่างอิสระ

ดาบสองคมและการรับมือขององค์กร

ข้อสรุปของ AISI ชี้ให้เห็นโดยตรงถึงความเป็นคู่ของลักษณะความสามารถด้านไซเบอร์ของเอไอ ในด้านหนึ่ง ในอนาคตโมเดลจำนวนมากที่มีความสามารถลักษณะเดียวกันจะยังคงทยอยปรากฏขึ้น ซึ่งจะเพิ่มความเสี่ยงที่เห็นได้ชัดมากขึ้นต่อองค์กรที่มีการป้องกันไม่เข้มแข็ง ในอีกด้านหนึ่ง ความสามารถด้านไซเบอร์ของเอไอก็สามารถนำมาซึ่งการปรับปรุงแบบก้าวกระโดดในฝั่งการป้องกันได้เช่นกัน

สำหรับการรับมือขององค์กร AISI เน้นย้ำถึงความเร่งด่วนของพื้นฐานความปลอดภัยทางไซเบอร์: การนำการอัปเดตความปลอดภัยไปใช้เป็นประจำ การควบคุมการเข้าถึงที่แข็งแรง การจัดการการตั้งค่าความปลอดภัย และการบันทึกบันทึกเหตุการณ์อย่างครบถ้วน AISI ระบุว่า ในอนาคต ความสามารถของโมเดลแนวหน้าจะยิ่งแข็งแกร่งขึ้น และการลงทุนเพื่อสร้างการป้องกันทางไซเบอร์ตอนนี้จึงมีความสำคัญอย่างยิ่ง

ในทิศทางการประเมินในอนาคต AISI ระบุว่าจะจัดตั้งสนามจำลองที่ผสานการเสริมความแข็งแกร่งและสภาพแวดล้อมการป้องกัน โดยจะนำองค์ประกอบต่าง ๆ เช่น การตรวจสอบเชิงรุก การตรวจจับที่ปลายทาง (端点偵測) และการตอบสนองต่อเหตุการณ์แบบเรียลไทม์ มาใช้ เพื่อประเมินขีดจำกัดความสามารถจริงของการโจมตีเครือข่ายด้วยเอไอให้ใกล้เคียงสถานการณ์การโจมตีจริงมากขึ้น

สำหรับรายงานฉบับเต็ม โปรดดูที่ 【ต้นฉบับ】

news.view.source

news.article.disclaimer

btc.bar.articles

Claude Code คืออะไร? คู่มือที่ครอบคลุมที่สุดในปี 2026: การติดตั้งผ่าน CLI, แอปเดสก์ท็อป, การทำให้งานอัตโนมัติด้วย Routines, MCP และโครงสร้างสิทธิ์ของ .claude แบบครบถ้วน

ChainNewsAbmedia04-20 04:35

Claude Opus 4.7 ซ่อนการขึ้นราคา: ตัว Tokenizer ตัวใหม่ทำให้ใช้โทเค็นกับข้อความเดิมมากขึ้น 37–47% แต่ค่าธรรมเนียมไม่เปลี่ยน ใบแจ้งหนี้กลับแพงขึ้น

ChainNewsAbmedia04-20 01:15

Canva ประกาศการบูรณาการอย่างลึกซึ้งกับ Claude เพื่อแปลงร่างงาน AI ให้กลายเป็นผลงานออกแบบที่เสร็จสมบูรณ์

ChainNewsAbmedia04-19 20:04

ผู้นำด้านการเงินระดับโลกส่งสัญญาณถึงความกังวลอย่างร้ายแรงเกี่ยวกับโมเดล Mythos AI

Cryptonews04-18 02:39

แอนโทรปิกเปิดตัว Claude Opus 4.7: การให้เหตุผลก้าวหน้าอีกขั้น ไม่ใช่แค่เครื่องมือทำข้อสอบอีกต่อไป

ChainNewsAbmedia04-16 14:45

แสดงความคิดเห็น

0/400

ไม่มีความคิดเห็น