DeepSeek V4 Đạt Điểm Hoàn Hảo Trên Putnam-2025, Hòa Với Axiom Trong Suy Luận Toán Học Chính Thức

Tin tức từ Gate, ngày 24 tháng 4 — DeepSeek V4 đã công bố kết quả từ các bài đánh giá suy luận toán học chính thức, đạt điểm tuyệt đối 120/120 trên Putnam-2025, hòa với Axiom ở vị trí số 1.

Trong chế độ thực dụng sử dụng LeanExplore và lấy mẫu bị ràng buộc, V4-Flash-Max đạt 81.00 trên chuẩn điểm Putnam-200 Pass@8, vượt trội đáng kể so với Seed-2.0-Prover (35.50), Gemini 3 Pro (26.50) và Seed-1.5-Prover (26.50). Kết quả ở chế độ biên cho thấy V4 đứng trước Seed-1.5-Prover (110/120) và Aristotle (100/120).

V4 sử dụng một cách tiếp cận suy luận lai chính thức-vô chính thức: suy luận vô chính thức tạo ra các giải pháp ứng viên bằng ngôn ngữ tự nhiên, tự kiểm chứng lọc các kết quả, và tác nhân chính thức hoàn thiện các phép chứng chặt chẽ trong Lean. Kết quả ở chế độ biên sử dụng khả năng mở rộng tính toán quy mô lớn, trong khi điểm số ở chế độ thực dụng phản ánh tốt hơn năng lực triển khai tiêu chuẩn.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận