Một nghiên cứu được công bố trong tháng này của nhà nghiên cứu Kosta Jordanov tại Lenz Research cho thấy 5 mô hình AI tuyến đầu bất đồng trên 67% trong số 1.000 yêu cầu kiểm chứng sự thật trong thế giới thực, chỉ có 328 yêu cầu đạt được sự đồng thuận tuyệt đối. Nghiên cứu thử nghiệm GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro kèm Search và Sonar Pro trên các nhận định do người dùng thực gửi đến một nền tảng kiểm chứng sự thật. Các mô hình đạt điểm Krippendorff's alpha là 0,639, thấp hơn ngưỡng 0,8 mà các nhà nghiên cứu thường coi là đáng tin cậy. Các bất đồng xảy ra ngay cả khi tất cả mô hình đánh giá các nhận định giống hệt nhau bằng cùng một hệ thống 4 nhãn: đúng, chủ yếu đúng, gây hiểu lầm, hoặc sai. Kết quả làm nổi bật các lo ngại về độ tin cậy khi ngày càng nhiều người chuyển sang các hệ thống AI để kiểm chứng thông tin.
Nghiên cứu giao cho 5 mô hình AI cùng 1.000 nhận định kiểm chứng sự thật trong thế giới thực do người dùng thực gửi. Các mô hình phải chọn một trong bốn nhãn: đúng, chủ yếu đúng, gây hiểu lầm, hoặc sai. Nghiên cứu sử dụng các nhận định do người thật nộp cho nền tảng kiểm chứng sự thật của Lenz thay vì trích từ các bộ kiểm thử chuẩn. Bài báo ghi chú: “Phần lớn các nhận định này khó có khả năng xuất hiện trong bất kỳ tập dữ liệu huấn luyện nào có gắn nhãn vàng—không có bộ đáp án chuẩn để đối chiếu mẫu, cũng không có bảng xếp hạng benchmark để làm điểm tựa.”
Trong 672/1.000 nhận định, ít nhất một mô hình đi ngược với đa số. Ở 34% trường hợp, mức độ bất đồng là nghiêm trọng: một mô hình gọi nhận định là đúng trong khi mô hình khác gọi là sai. “Đây không phải các hạng mục benchmark có bộ đáp án công khai—đó là các nhận định do người dùng thật gửi để xác minh trên một nền tảng kiểm chứng sự thật,” nghiên cứu viết. “Chỉ một nhóm phán quyết có thể đúng cho mỗi nhận định, nên bất kỳ sự bất đồng nào trong nhóm đều có nghĩa là ít nhất một mô hình đưa ra phán quyết không nhất quán theo bảng phân loại 4 nhóm này.”
Chỉ số thống kê về mức độ đồng thuận, được gọi là Krippendorff's alpha, đạt 0,639 trên thang đo mà 1,0 nghĩa là đồng thuận hoàn hảo và 0 là ngẫu nhiên. Nghiên cứu nói rằng điều này cho thấy “mức đồng thuận đáng kể nhưng bị giới hạn.” “Các phán quyết của mô hình có cấu trúc chứ không ngẫu nhiên, nhưng không đủ nhất quán để coi cả hội đồng như một thẩm phán duy nhất có thể thay thế cho nhau,” các nhà nghiên cứu nhận định. Thông thường, các nhà nghiên cứu coi mọi giá trị dưới 0,8 là yếu.
Các nhà nghiên cứu cung cấp các ví dụ nhận định mà các mô hình AI cho thấy mức phân kỳ lớn nhất, bao gồm “Danh mục đầu tư đang hoạt động của Ngân hàng Thế giới tại Nigeria có giá trị vượt 16,4 tỷ USD tính đến năm 2025.” ChatGPT 5.4 nói là “chủ yếu đúng” trong khi Gemini 3 Pro gọi là “sai” và mô hình chị em Gemini 3 Pro + Search chấm là “gây hiểu lầm.”
Ở một ví dụ khác, các mô hình được cung cấp nhận định: “Donald Trump nói rằng một cuộc tấn công vào Iran đã bị hoãn theo yêu cầu của các đồng minh vùng Vịnh.” GPT-5.4 nói là sai, Claude Opus 4.7 gọi là chủ yếu đúng, Gemini 3 Pro nói là sai, và Gemini 3 Pro + Search chấm là đúng.
Khi cả 5 mô hình đều đồng ý—chỉ xảy ra ở 328/1.000 nhận định—họ gần như không bao giờ đồng ý rằng một điều gì đó là gây hiểu lầm hoặc chủ yếu đúng. Chỉ có 4 nhận định nhận phán quyết “gây hiểu lầm” đồng thuận tuyệt đối. Không có nhận định nào nhận phán quyết “chủ yếu đúng” đồng thuận tuyệt đối. “Hội đồng hội tụ về các phán quyết mang tính xác định; phần giữa của thang đo mới là nơi bị bẻ gãy,” các nhà nghiên cứu phát hiện. Sự nhất quán chỉ xảy ra ở các thái cực: hoặc nhận định chắc chắn đúng hoặc chắc chắn sai.
Bài báo cẩn trọng nêu rõ điều này: “Số đông của các mô hình tuyến đầu không phải là sự thật nền tảng. Phán quyết của số đông đôi khi sai; một mô hình bất đồng cá nhân đôi khi đúng. Chúng tôi dùng đa số như một mốc tham chiếu mang tính cấu trúc để đo mức độ bất đồng, chứ không dùng như một đại diện cho tính đúng.”
Nghiên cứu của Lenz Research phát hiện gì về mức độ đồng thuận của mô hình AI trong kiểm chứng sự thật?
Nghiên cứu cho thấy 5 mô hình AI tuyến đầu bất đồng trên 67% trong số 1.000 yêu cầu kiểm chứng sự thật trong thế giới thực do người dùng thật gửi. Chỉ có 328 yêu cầu đạt đồng thuận tuyệt đối, và các mô hình đạt điểm Krippendorff's alpha là 0,639, thấp hơn ngưỡng độ tin cậy 0,8 mà các nhà nghiên cứu nhìn chung coi là chấp nhận được.
Mô hình AI hoạt động thế nào với ví dụ nhận định về danh mục đầu tư của Ngân hàng Thế giới tại Nigeria?
ChatGPT 5.4 chấm nhận định “Danh mục đầu tư đang hoạt động của Ngân hàng Thế giới tại Nigeria có giá trị vượt 16,4 tỷ USD tính đến năm 2025” là chủ yếu đúng, trong khi Gemini 3 Pro gọi là sai và Gemini 3 Pro + Search chấm là gây hiểu lầm, cho thấy mức phân kỳ nghiêm trọng giữa các mô hình trên cùng một nhận định mang tính dữ kiện.
Tại sao nghiên cứu lại dùng các nhận định do người dùng thật gửi thay vì các bộ kiểm thử chuẩn?
Các nhà nghiên cứu sử dụng các nhận định do người thật nộp cho nền tảng kiểm chứng sự thật của Lenz vì phần lớn các nhận định này khó có khả năng xuất hiện trong bất kỳ tập dữ liệu huấn luyện nào có gắn nhãn vàng, loại bỏ khả năng các mô hình đối chiếu theo bộ đáp án benchmark và mang lại phép thử thực tế hơn về độ tin cậy của việc kiểm chứng sự thật.
Tin tức liên quan
3 ngân hàng hàng đầu của Nhật Bản được mở quyền truy cập AI của OpenAI để phòng thủ an ninh mạng
Vitalik xác nhận CROPS AI và lớp truy cập của Ethereum trùng lặp, DeepSeek V4 là công cụ cốt lõi
Chế độ nhanh Anthropic Opus 4.8 giảm xuống còn 10 USD, Mythos hoạt động toàn bộ trong vài tuần tới
Điều tra Entelligence AI: 82% chi tiêu cho kỹ thuật AI bị hao hụt do viết lại lỗ hổng và chậm trễ
Gemini Ra mắt Trung tâm Lệnh AI được cung cấp bởi Grok, báo cáo kết quả kinh doanh quý 1 trái chiều