DeepSeek V4 ทำคะแนนสมบูรณ์แบบบน Putnam-2025 เสมอกับ Axiom ในการให้เหตุผลทางคณิตศาสตร์แบบเป็นทางการ

ข้อความจาก Gate News วันที่ 24 เมษายน — DeepSeek V4 ได้เผยแพร่ผลการประเมินการให้เหตุผลทางคณิตศาสตร์อย่างเป็นทางการ โดยทำคะแนนสมบูรณ์แบบ 120/120 บน Putnam-2025 เสมอกับ Axiom สำหรับอันดับที่หนึ่ง

ในโหมดปฏิบัติการที่ใช้ LeanExplore และการสุ่มแบบมีข้อจำกัด V4-Flash-Max ได้คะแนน 81.00 ในเกณฑ์มาตรฐาน Putnam-200 Pass@8 ซึ่งเหนือกว่า Seed-2.0-Prover (35.50) อย่างมีนัยสำคัญ, Gemini 3 Pro (26.50), และ Seed-1.5-Prover (26.50) ผลลัพธ์ในโหมดแนวหน้าแสดงให้เห็นว่า V4 นำหน้า Seed-1.5-Prover (110/120) และ Aristotle (100/120).

V4 ใช้วิธีการให้เหตุผลแบบผสมผสานระหว่างแบบไม่เป็นทางการและแบบเป็นทางการ: การให้เหตุผลแบบไม่เป็นทางการสร้างวิธีแก้ปัญหาในรูปภาษาธรรมชาติที่เป็นผู้สมัคร, การตรวจสอบตนเองคัดกรองผลลัพธ์, และเอเจนต์แบบเป็นทางการทำการพิสูจน์อย่างเข้มงวดใน Lean ผลลัพธ์ในโหมดแนวหน้าใช้การขยายการคำนวณขนาดใหญ่ ในขณะที่คะแนนในโหมดปฏิบัติการสะท้อนขีดความสามารถในการใช้งานจริงมาตรฐานได้ดีกว่า

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น