Google DeepMind đã ra mắt AI đồng toán học, một trợ lý nghiên cứu toán đa tác nhân, đạt 47,9% độ chính xác trên benchmark FrontierMath Tier 4, vượt kỷ lục trước đó của GPT-5.5 Pro là 39,6% vào ngày 9/5. Hệ thống đã giải được 23 trong số 48 bài toán, bao gồm 3 bài mà mọi mô hình trước đó đều không thể giải. Được xây dựng trên Gemini 3.1 Pro, kiến trúc sử dụng thiết kế phân cấp với một tác nhân điều phối dự án phân phối tác vụ cho các tác nhân con đảm nhiệm việc truy xuất tài liệu, viết mã và suy luận, đồng thời có nhiều tác nhân phản biện xác thực các chứng minh trước khi nộp.
Epoch AI đã tiến hành thử nghiệm mù, ngăn đội ngũ DeepMind xem được các bài toán, với mỗi câu hỏi được phép tính toán trong 48 giờ. Trong ứng dụng thực tế, nhà toán học Marc Lackenby đã dùng hệ thống để giải một phỏng đoán mở từ Kourovka Notebook, qua đó cho thấy giá trị nghiên cứu mang tính thực tiễn. Hiện hệ thống đang được cung cấp cho một số lượng giới hạn các nhà toán học trong giai đoạn thử nghiệm beta.
Related News
Jeff Kaufman: AI đồng thời phá vỡ hai “văn hóa” lỗ hổng an ninh mạng, thời gian cấm 90 ngày phản tác dụng
OpenAI hé lộ tác động bất ngờ của việc chấm điểm CoT: việc giữ giám sát chuỗi suy nghĩ là tuyến phòng thủ quan trọng để căn chỉnh AI Agent
GPT-5.5-Cyber của OpenAI trang bị vũ khí cho các hệ thống bảo vệ mạng