BioMysteryBench:Mythos ผู้เชี่ยวชาญไขความลึกลับไม่สามารถไขปัญหาได้ 29.6%

ChainNewsAbmedia

Anthropic วันที่ 29 เมษายน ได้เผยแพร่ BioMysteryBench ซึ่งเป็นเกณฑ์ประเมินผลชุดใหม่สำหรับความสามารถด้านการวิเคราะห์ทางชีวสารสนเทศของ AI ในประกาศการวิจัยอย่างเป็นทางการ โดยประกอบด้วยคำถามแบบปลายเปิดในสถานการณ์การวิจัยจริง ข้อมูลที่น่าสนใจที่สุดคือ ในบรรดาคำถามที่คณะผู้เชี่ยวชาญด้านมนุษย์ยังแก้ไม่ได้ ภายหลังที่ผู้เชี่ยวชาญลองทำแล้วนั้น โมเดลเรือธงของ Anthropic อย่าง Mythos แก้ได้ 29.6% และ Opus 4.7 แก้ได้ 27.0%

การออกแบบการประเมิน: แยกเป็น 2 แนวทาง ทั้งคำถามที่แก้ได้และคำถามที่ผู้เชี่ยวชาญแก้ไม่ได้

BioMysteryBench ประกอบด้วยคำถาม 2 ประเภท ประเภทแรกคือ “คำถามที่แก้ได้” ซึ่งนักวิจัยด้านชีวสารสนเทศออกแบบไว้พร้อมคำตอบมาตรฐานสำหรับเทียบเคียงได้ และประเภทที่สองคือ “คำถามที่ผู้เชี่ยวชาญแก้ไม่ได้” ซึ่งเป็นโจทย์ที่คณะผู้เชี่ยวชาญของมนุษย์พยายามแล้วแต่ยังหาคำตอบที่น่าเชื่อถือไม่ได้ ใช้เพื่อตรวจสอบว่าโมเดลสามารถก้าวข้ามขอบเขตความรู้ในสาขาปัจจุบันได้หรือไม่

ในส่วนของคำถามที่แก้ได้ จะเห็นความแตกต่างของความสามารถอย่างชัดเจนตามแต่ละรุ่นของ Anthropic: Claude Haiku 4.5 แก้ได้ 36.8%, Claude Sonnet 4.6 ทำได้ 71.8% และ Claude Mythos รุ่นเรือธงล่าสุดทำได้ 82.6% การไล่ระดับนี้สอดคล้องกับความแตกต่างด้านความสามารถที่ Anthropic ออกมาระบุไว้ต่อสาธารณะโดยรวม—Haiku เป็นโมเดลไลท์เวท, Sonnet เป็นโมเดลหลัก และ Mythos เป็นโมเดลสำหรับงานวิจัยระดับท็อป

สิ่งที่น่าจะเป็นประเด็นจริงจังอยู่ที่ส่วนของคำถามที่ผู้เชี่ยวชาญแก้ไม่ได้ โจทย์กลุ่มนี้ได้รับการประเมินโดยคณะผู้เชี่ยวชาญด้านชีวสารสนเทศ และถูกติดป้ายว่า “แก้ไม่ได้หรือไม่มีฉันทามติ” โดย Mythos แก้ได้ 29.6% และ Opus 4.7 แก้ได้ 27.0% ผลลัพธ์นี้ไม่ใช่หลักฐานเพียงอย่างเดียวว่ารุ่นโมเดล “เก่งกว่ามนุษย์” กล่าวให้แม่นยำกว่านั้นคือ ในโจทย์ที่ผู้เชี่ยวชาญไม่สามารถจัดการได้เนื่องจากข้อจำกัดด้านเส้นทาง เวลา หรือทรัพยากร AI สามารถเสนอแนวทางการแก้ที่ตรวจสอบได้ แม้จะไม่จำเป็นต้องเป็นคำตอบสุดท้าย แต่มีคุณลักษณะของ “มุมมองที่มนุษย์ยังไม่เคยลอง”

เดินหน้าพร้อมกับ Claude for Life Sciences

BioMysteryBench เดินไปในทิศทางเดียวกันกับโครงการ “Claude for Life Sciences” ที่ Anthropic ผลักดันมาตั้งแต่ช่วงครึ่งหลังของปี 2025 โครงการหลังมุ่งเป้าไปที่สถานการณ์การใช้งานจริงอย่างการพัฒนายา จีโนมิกส์ และการออกแบบการทดลองทางคลินิก ส่วนโครงการแรกใช้วิธีการประเมินเพื่อทำให้ความก้าวหน้าของ “ความสามารถระดับงานวิจัย” ของ AI ในสาขาวิทยาศาสตร์ชีวภาพถูกวัดเชิงปริมาณ สัญญาณร่วมกันของทั้งสองอย่างคือ Anthropic กำหนดให้ชีวการแพทย์เป็นหนึ่งในสมรภูมิหลักระยะยาวของการใช้งานของ Claude และแข่งขันในอีกทางเข้ากับแนวทางของ DeepMind AlphaFold

ตัวเลขที่ Mythos แก้ได้เกือบ 30% ของคำถามที่ผู้เชี่ยวชาญแก้ไม่ได้ หากสามารถนำไปพิสูจน์ซ้ำได้ในการตรวจสอบโดยบุคคลที่สามที่เป็นอิสระ ก็จะกลายเป็นหลักฐานเชิงการยืนยันระยะแรกถึงคุณค่าที่เป็นรูปธรรมของโมเดล AI ในสถานการณ์งานวิจัย ประเด็นที่ควรติดตามต่อไป ได้แก่ BioMysteryBench จะถูกนำมาใช้เป็นมาตรฐานการประเมินโดยสถาบันวิจัยอื่นหรือไม่ กระบวนการยืนยันของผู้เชี่ยวชาญมนุษย์สำหรับคำถามที่แก้ได้เป็นอย่างไร และ Mythos สามารถทำซ้ำผลการทดสอบได้ในแผนงานวิจัยจริงหรือไม่

บทความนี้ BioMysteryBench:Mythos 解專家無解題 29.6% ตีพิมพ์ครั้งแรกที่ 鏈新聞 ABMedia

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น