ข้อความจาก Gate News วันที่ 24 เมษายน — DeepSeek V4 ได้เผยแพร่ผลการประเมินการให้เหตุผลทางคณิตศาสตร์อย่างเป็นทางการ โดยทำคะแนนสมบูรณ์แบบ 120/120 บน Putnam-2025 เสมอกับ Axiom สำหรับอันดับที่หนึ่ง
ในโหมดปฏิบัติการที่ใช้ LeanExplore และการสุ่มแบบมีข้อจำกัด V4-Flash-Max ได้คะแนน 81.00 ในเกณฑ์มาตรฐาน Putnam-200 Pass@8 ซึ่งเหนือกว่า Seed-2.0-Prover (35.50) อย่างมีนัยสำคัญ, Gemini 3 Pro (26.50), และ Seed-1.5-Prover (26.50) ผลลัพธ์ในโหมดแนวหน้าแสดงให้เห็นว่า V4 นำหน้า Seed-1.5-Prover (110/120) และ Aristotle (100/120).
V4 ใช้วิธีการให้เหตุผลแบบผสมผสานระหว่างแบบไม่เป็นทางการและแบบเป็นทางการ: การให้เหตุผลแบบไม่เป็นทางการสร้างวิธีแก้ปัญหาในรูปภาษาธรรมชาติที่เป็นผู้สมัคร, การตรวจสอบตนเองคัดกรองผลลัพธ์, และเอเจนต์แบบเป็นทางการทำการพิสูจน์อย่างเข้มงวดใน Lean ผลลัพธ์ในโหมดแนวหน้าใช้การขยายการคำนวณขนาดใหญ่ ในขณะที่คะแนนในโหมดปฏิบัติการสะท้อนขีดความสามารถในการใช้งานจริงมาตรฐานได้ดีกว่า
news.related.news
OpenAI เปิดตัว GPT-5.5: บริบท 12M, ดัชนี AA ขึ้นอันดับหนึ่ง, และ Terminal-Bench 82.7% ปรับปรุงมาตรฐานพร็อกซีใหม่
Hyperliquid HYPE ทำสถิติสูงสุดรอบ 60 วันบนโมเมนตัม HIP4
DeepSeek อยู่ระหว่างการเจรจาการระดมทุนรอบแรกจากนักลงทุนภายนอก มูลค่า 20 พันล้านดอลลาร์สหรัฐ: การประเมินมูลค่า AI ของจีนทำสถิติสูงสุดใหม่