ข้อความจาก Gate News วันที่ 24 เมษายน — DeepSeek V4 ได้เผยแพร่ผลการประเมินการให้เหตุผลทางคณิตศาสตร์อย่างเป็นทางการ โดยทำคะแนนสมบูรณ์แบบ 120/120 บน Putnam-2025 เสมอกับ Axiom สำหรับอันดับที่หนึ่ง

ในโหมดปฏิบัติการที่ใช้ LeanExplore และการสุ่มแบบมีข้อจำกัด V4-Flash-Max ได้คะแนน 81.00 ในเกณฑ์มาตรฐาน Putnam-200 Pass@8 ซึ่งเหนือกว่า Seed-2.0-Prover (35.50) อย่างมีนัยสำคัญ, Gemini 3 Pro (26.50), และ Seed-1.5-Prover (26.50) ผลลัพธ์ในโหมดแนวหน้าแสดงให้เห็นว่า V4 นำหน้า Seed-1.5-Prover (110/120) และ Aristotle (100/120).

V4 ใช้วิธีการให้เหตุผลแบบผสมผสานระหว่างแบบไม่เป็นทางการและแบบเป็นทางการ: การให้เหตุผลแบบไม่เป็นทางการสร้างวิธีแก้ปัญหาในรูปภาษาธรรมชาติที่เป็นผู้สมัคร, การตรวจสอบตนเองคัดกรองผลลัพธ์, และเอเจนต์แบบเป็นทางการทำการพิสูจน์อย่างเข้มงวดใน Lean ผลลัพธ์ในโหมดแนวหน้าใช้การขยายการคำนวณขนาดใหญ่ ในขณะที่คะแนนในโหมดปฏิบัติการสะท้อนขีดความสามารถในการใช้งานจริงมาตรฐานได้ดีกว่า

news.view.source

news.article.disclaimer

news.related.news

04-24 04:29

V4-Pro ทำอัตราคะแนนผ่านการเขียนโค้ด 67% ในการทดสอบการใช้งานจริงภายใน ใกล้เคียงประสิทธิภาพ Opus 4.5

04-24 03:21

ข้อมูลการฝึกของ DeepSeek V4 เพิ่มเป็นสองเท่าเป็น 33T กระตุ้นความไม่เสถียรที่ทำให้การปล่อยล่าช้า

04-24 03:04

DeepSeek เปิดตัวซีรีส์โมเดลโอเพนซอร์ส V4 ด้วยพารามิเตอร์ 1.6T และใบอนุญาต MIT

04-24 02:01

หุ้นที่เกี่ยวข้องกับ AI ตอนนี้คิดเป็น 45% ของมูลค่าตลาด S&P 500 ตลาดเครดิตเผชิญแรงกดดัน

04-24 01:46