
Anthropic เมื่อวันที่ 4 มิถุนายน ได้เผยแพร่รายงาน โดยเปิดเผยว่ารุ่น Mythos Preview ของตนในการทดสอบเพื่อช่วยการตัดสินใจด้านการวิจัยด้วย AI นั้น ใน 64% ของกรณีให้ผลการตัดสินใจที่ดีกว่านักวิจัยมนุษย์ ในขณะที่การทดสอบประเภทเดียวกันในปี 2024 มีอัตราชนะเพียง 22% ในการทดสอบมาตรฐานด้านการเพิ่มประสิทธิภาพโค้ดสำหรับการฝึกโมเดล AI ขนาดเล็ก Mythos Preview ทำได้เพิ่มความเร็ว 52 เท่า
Anthropic เปิดเผยการออกแบบการทดสอบดังนี้: ทีมงานนำเสนอให้ Claude ดูบันทึกการสนทนาที่นักวิจัยมนุษย์กำลังจะทำการตัดสินใจผิดพลาดในทิศทางการวิจัย และถาม AI ว่า “ต่อไปควรทำอย่างไร” Mythos Preview ใน 64% ของกรณีให้คำตอบที่ดีกว่านักวิจัยมนุษย์ และในปี 2024 อัตราชนะของการทดสอบประเภทเดียวกันอยู่ที่ 22%
Anthropic ระบุไว้ในรายงานว่าผลลัพธ์ดังกล่าว “บ่งชี้ว่า AI เริ่มมีความสามารถในการชี้นำการวิจัยระดับสูง” แต่ขณะเดียวกันก็กล่าวว่าในตอนนี้ยังไม่สามารถยืนยันได้ว่า Claude มีความสามารถในการตัดสินภาพรวมในการ “เลือกโจทย์วิจัยที่ถูกต้อง” แบบอิสระหรือไม่
ตัวชี้วัดที่เกี่ยวข้องกับประสิทธิภาพโค้ดของ Anthropic:
ปริมาณการส่งมอบโค้ดรายไตรมาสของวิศวกรภายใน: เท่ากับ 8 เท่าของระดับเฉลี่ยในช่วงปี 2021-2025
อัตราความสำเร็จของโจทย์โค้ดแบบเปิด: เพิ่มขึ้น 50 จุดเปอร์เซ็นต์ภายใน 6 เดือน ถึง 76%
ความเร็วในการเพิ่มประสิทธิภาพโค้ดสำหรับการฝึก: Mythos Preview เพิ่มขึ้น 52 เท่า
เกณฑ์เปรียบเทียบ: Claude Opus 4 (พฤษภาคม 2024) เฉลี่ยราว 3 เท่า; วิศวกรมนุษย์ที่มีความชำนาญมักใช้เวลา 4-8 ชั่วโมงเพื่อทำได้ราว 4 เท่า
รายงานของ Anthropic ระบุว่า วิศวกรภายในบางส่วนมองว่าคุณภาพโค้ดของ Claude ใกล้เคียงระดับมนุษย์แล้ว
Anthropic ประกาศว่าจะร่วมมือกับผู้มีส่วนได้ส่วนเสียภายนอกเพื่อจัดตั้ง “Anthropic Institute (สถาบันวิจัยของ Anthropic)” โดยมุ่งศึกษาผลกระทบอันลึกซึ้งของระบบ AI ที่ทรงพลัง
ในรายงาน Anthropic ระบุว่า การพัฒนา AI ที่เร่งขึ้นมีทั้งโอกาสสร้างผลเชิงบวกต่อด้านการแพทย์ เทคโนโลยี และเศรษฐกิจ รวมถึงอาจทำให้ปัญหาความสอดคล้องของ AI (Alignment) รุนแรงขึ้น และนำไปสู่ความเสี่ยงของ “การสูญเสียการควบคุม (Loss of control)” โดย Anthropic ชี้ว่าผลกระทบนี้ “ควรได้รับความใส่ใจในระดับที่สูงกว่าเดิม”
Anthropic แสดงให้ Claude เห็นบันทึกการสนทนาที่นักวิจัยกำลังจะก้าวไปสู่ทิศทางการวิจัยที่ผิด และถามว่า “ต่อไปควรทำอย่างไร” เพื่อทดสอบความสามารถในการตัดสินใจเชิงวิจัยของ AI Mythos Preview ให้คำตอบที่ดีกว่านักวิจัยมนุษย์ใน 64% ของกรณี เมื่อเทียบกับอัตราชนะ 22% ของการทดสอบประเภทเดียวกันในปี 2024 โดยในเวลา 2 ปีสามารถเติบโตแบบก้าวกระโดดได้
การพัฒนาตนเองแบบวนซ้ำ (Recursive Self-Improvement) หมายถึงความสามารถที่ระบบ AI พัฒนารุ่น AI เจเนอเรชันถัดไปที่เก่งกว่าตัวมันเองแบบอิสระ Anthropic ระบุในรายงานวันที่ 4 มิถุนายน 2026 ว่ากระบวนการนี้กำลังดำเนินไปด้วย “ความเร็วที่เร็วกว่าที่คาดไว้” และในขณะเดียวกันก็ยอมรับว่า ณ ตอนนี้ยังไม่สามารถยืนยันได้ว่า Claude มีความสามารถในการตัดสินภาพรวมในการ “เลือกโจทย์วิจัยที่ถูกต้อง” แบบอิสระหรือไม่
Anthropic ประกาศว่าจะร่วมมือกับผู้มีส่วนได้ส่วนเสียภายนอกเพื่อจัดตั้ง Anthropic Institute โดยเน้นการศึกษาผลกระทบอันลึกซึ้งของระบบ AI ที่ทรงพลัง Anthropic ระบุว่าจุดประสงค์ในการจัดตั้งคือเพื่อให้แน่ใจว่ามนุษย์จะสามารถตัดสินใจอย่างรอบคอบสำหรับอนาคตของเทคโนโลยี AI ได้ ขอบเขตงานวิจัยและไทม์ไลน์ยังไม่ได้เปิดเผยอย่างครบถ้วน
news.related.news
ซีอีโอ CrowdStrike: ความกังวลด้านความปลอดภัยของ AI เพิ่มขึ้น แต่ยังมีปัจจัยหนุนแม้จะกำหนดจังหวะในไตรมาส 1
Anthropic AI Claude เขียนโค้ดสำหรับงานผลิตได้ 80% ณ เดือนพฤษภาคม 2026
Anthropic: 67% ของบัญชีที่ถูกแบน ใช้ AI เพื่อเตรียมการโจมตีทางไซเบอร์
Cloudflare: 34.1% ของทราฟฟิกทั่วโลกมาจากบอท เพิ่มความเร็วของ AI crawler ถึง 8 เท่า
การวิจัย Mind Lab LoRA: การเพิ่มพารามิเตอร์เพียง 0.12% ช่วยยกระดับความจำของ AI ได้ 1.31 เท่า