รายงานของ Anthropic: อัตราชนะของการตัดสินใจด้วย AI เพิ่มขึ้นเป็น 64% ขณะที่การปรับแต่งโค้ดเพิ่มขึ้น 52 เท่า

2026-06-05 02:20:35

Anthropic เมื่อวันที่ 4 มิถุนายน ได้เผยแพร่รายงาน โดยเปิดเผยว่ารุ่น Mythos Preview ของตนในการทดสอบเพื่อช่วยการตัดสินใจด้านการวิจัยด้วย AI นั้น ใน 64% ของกรณีให้ผลการตัดสินใจที่ดีกว่านักวิจัยมนุษย์ ในขณะที่การทดสอบประเภทเดียวกันในปี 2024 มีอัตราชนะเพียง 22% ในการทดสอบมาตรฐานด้านการเพิ่มประสิทธิภาพโค้ดสำหรับการฝึกโมเดล AI ขนาดเล็ก Mythos Preview ทำได้เพิ่มความเร็ว 52 เท่า

วิธีการทดสอบการตัดสินใจด้านการวิจัยและข้อมูล

Anthropic เปิดเผยการออกแบบการทดสอบดังนี้: ทีมงานนำเสนอให้ Claude ดูบันทึกการสนทนาที่นักวิจัยมนุษย์กำลังจะทำการตัดสินใจผิดพลาดในทิศทางการวิจัย และถาม AI ว่า “ต่อไปควรทำอย่างไร” Mythos Preview ใน 64% ของกรณีให้คำตอบที่ดีกว่านักวิจัยมนุษย์ และในปี 2024 อัตราชนะของการทดสอบประเภทเดียวกันอยู่ที่ 22%

Anthropic ระบุไว้ในรายงานว่าผลลัพธ์ดังกล่าว “บ่งชี้ว่า AI เริ่มมีความสามารถในการชี้นำการวิจัยระดับสูง” แต่ขณะเดียวกันก็กล่าวว่าในตอนนี้ยังไม่สามารถยืนยันได้ว่า Claude มีความสามารถในการตัดสินภาพรวมในการ “เลือกโจทย์วิจัยที่ถูกต้อง” แบบอิสระหรือไม่

ข้อมูลประสิทธิภาพโค้ดในรายงานของ Anthropic

ตัวชี้วัดที่เกี่ยวข้องกับประสิทธิภาพโค้ดของ Anthropic:

ปริมาณการส่งมอบโค้ดรายไตรมาสของวิศวกรภายใน: เท่ากับ 8 เท่าของระดับเฉลี่ยในช่วงปี 2021-2025

อัตราความสำเร็จของโจทย์โค้ดแบบเปิด: เพิ่มขึ้น 50 จุดเปอร์เซ็นต์ภายใน 6 เดือน ถึง 76%

ความเร็วในการเพิ่มประสิทธิภาพโค้ดสำหรับการฝึก: Mythos Preview เพิ่มขึ้น 52 เท่า

เกณฑ์เปรียบเทียบ: Claude Opus 4 (พฤษภาคม 2024) เฉลี่ยราว 3 เท่า; วิศวกรมนุษย์ที่มีความชำนาญมักใช้เวลา 4-8 ชั่วโมงเพื่อทำได้ราว 4 เท่า

รายงานของ Anthropic ระบุว่า วิศวกรภายในบางส่วนมองว่าคุณภาพโค้ดของ Claude ใกล้เคียงระดับมนุษย์แล้ว

สถาบันวิจัยของ Anthropic: ยืนยันการก่อตั้ง ผลกระทบที่อาจเกิดต่อ RSI

Anthropic ประกาศว่าจะร่วมมือกับผู้มีส่วนได้ส่วนเสียภายนอกเพื่อจัดตั้ง “Anthropic Institute (สถาบันวิจัยของ Anthropic)” โดยมุ่งศึกษาผลกระทบอันลึกซึ้งของระบบ AI ที่ทรงพลัง

ในรายงาน Anthropic ระบุว่า การพัฒนา AI ที่เร่งขึ้นมีทั้งโอกาสสร้างผลเชิงบวกต่อด้านการแพทย์ เทคโนโลยี และเศรษฐกิจ รวมถึงอาจทำให้ปัญหาความสอดคล้องของ AI (Alignment) รุนแรงขึ้น และนำไปสู่ความเสี่ยงของ “การสูญเสียการควบคุม (Loss of control)” โดย Anthropic ชี้ว่าผลกระทบนี้ “ควรได้รับความใส่ใจในระดับที่สูงกว่าเดิม”

คำถามที่พบบ่อย

การทดสอบออกแบบอย่างไรสำหรับอัตราชนะของ Mythos Preview ในการตัดสินใจ?

Anthropic แสดงให้ Claude เห็นบันทึกการสนทนาที่นักวิจัยกำลังจะก้าวไปสู่ทิศทางการวิจัยที่ผิด และถามว่า “ต่อไปควรทำอย่างไร” เพื่อทดสอบความสามารถในการตัดสินใจเชิงวิจัยของ AI Mythos Preview ให้คำตอบที่ดีกว่านักวิจัยมนุษย์ใน 64% ของกรณี เมื่อเทียบกับอัตราชนะ 22% ของการทดสอบประเภทเดียวกันในปี 2024 โดยในเวลา 2 ปีสามารถเติบโตแบบก้าวกระโดดได้

RSI แบบ “การพัฒนาตนเองแบบวนซ้ำ (Recursive Self-Improvement)” ที่ถูกกล่าวถึงในรายงานของ Anthropic คืออะไร?

การพัฒนาตนเองแบบวนซ้ำ (Recursive Self-Improvement) หมายถึงความสามารถที่ระบบ AI พัฒนารุ่น AI เจเนอเรชันถัดไปที่เก่งกว่าตัวมันเองแบบอิสระ Anthropic ระบุในรายงานวันที่ 4 มิถุนายน 2026 ว่ากระบวนการนี้กำลังดำเนินไปด้วย “ความเร็วที่เร็วกว่าที่คาดไว้” และในขณะเดียวกันก็ยอมรับว่า ณ ตอนนี้ยังไม่สามารถยืนยันได้ว่า Claude มีความสามารถในการตัดสินภาพรวมในการ “เลือกโจทย์วิจัยที่ถูกต้อง” แบบอิสระหรือไม่

สถาบันวิจัยของ Anthropic มีบทบาทและเป้าหมายอะไร?

Anthropic ประกาศว่าจะร่วมมือกับผู้มีส่วนได้ส่วนเสียภายนอกเพื่อจัดตั้ง Anthropic Institute โดยเน้นการศึกษาผลกระทบอันลึกซึ้งของระบบ AI ที่ทรงพลัง Anthropic ระบุว่าจุดประสงค์ในการจัดตั้งคือเพื่อให้แน่ใจว่ามนุษย์จะสามารถตัดสินใจอย่างรอบคอบสำหรับอนาคตของเทคโนโลยี AI ได้ ขอบเขตงานวิจัยและไทม์ไลน์ยังไม่ได้เปิดเผยอย่างครบถ้วน

news.article.disclaimer

news.related.news

5 ชั่วโมง ที่แล้ว

Anthropic ยื่นไฟล์ IPO แบบเป็นความลับ โดย $965B มูลค่าบริษัท$65B เป็นตัวขับเคลื่อนการระดมทุน

7 ชั่วโมง ที่แล้ว

Anthropic เรียกร้องให้มีการหยุดชั่วคราวทั่วโลกในการพัฒนา AI ระดับแนวหน้า 5 มิถุนายน

10 ชั่วโมง ที่แล้ว

Anthropic ปรับใช้โมเดล AI Mythos กับ U.S. NSA สำหรับปฏิบัติการไซเบอร์ ตั้งสถานีให้วิศวกร 6 คน

btc.bar.articles

ซีอีโอ CrowdStrike: ความกังวลด้านความปลอดภัยของ AI เพิ่มขึ้น แต่ยังมีปัจจัยหนุนแม้จะกำหนดจังหวะในไตรมาส 1

Oliver Grant6 ชั่วโมง ที่แล้ว

Anthropic AI Claude เขียนโค้ดสำหรับงานผลิตได้ 80% ณ เดือนพฤษภาคม 2026