GPT-5 đạt độ chính xác 62,7% trên các sự cố sản xuất, không đạt mốc 72,7% theo chuẩn chuyên gia

Theo benchmark mới nhất của Datadog và Carnegie Mellon, GPT-5 đạt 62,7% độ chính xác trên bài kiểm tra ARFBench, thấp hơn các chuyên gia con người trong lĩnh vực (72,7%). ARFBench là bộ benchmark AI đầu tiên được xây dựng từ 63 sự cố sản xuất thực tế, gồm 750 câu hỏi trắc nghiệm, bao phủ 142 chỉ số giám sát và 5,38 triệu điểm dữ liệu—không dùng dữ liệu tổng hợp.

Các mô hình AI gặp nhiều khó khăn nhất ở phần suy luận xuyên chỉ số (các câu hỏi thuộc Tier III), nơi GPT-5 chỉ đạt 47,5% F1. Một mô hình lý thuyết kết hợp dạng “chuyên gia-oracle” từ AI và phán đoán của con người đạt 87,2% độ chính xác, cho thấy việc phối hợp có thể vượt qua từng phương thức riêng lẻ. Mô hình lai của Datadog, Toto-1.0-QA-Experimental, đứng đầu bảng xếp hạng với 63,9% độ chính xác, vượt GPT-5 ở khả năng nhận diện bất thường.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận