ตามที่นักวิจัย Kosta Jordanov จาก Lenz Research ระบุว่า โมเดล AI ระดับแนวหน้า 5 รุ่นไม่ตรงกันใน 67% ของข้อกล่าวอ้างตรวจสอบข้อเท็จจริงในโลกจริงจำนวน 1,000 ข้อที่ถูกทดสอบในเดือนนี้ โมเดลเหล่านี้—GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro with Search และ Sonar Pro—ถูกให้จัดประเภทข้อกล่าวอ้างว่าเป็นจริง (true), ค่อนข้างจริง (mostly true), ทำให้เข้าใจผิด (misleading) หรือเท็จ (false) ใน 34% ของกรณี ความไม่เห็นพ้องอยู่ในระดับรุนแรง โดยโมเดลหนึ่งระบุว่าข้อกล่าวอ้างนั้นเป็นจริง ขณะที่อีกโมเดลหนึ่งกลับติดป้ายว่าเป็นเท็จ
การศึกษานี้วัดระดับความเห็นพ้องโดยใช้ Krippendorff's alpha ซึ่งได้คะแนน 0.639 ในสเกลที่ 1.0 หมายถึงความเห็นพ้องที่สมบูรณ์แบบ โดยทั่วไปนักวิจัยมักมองว่าคะแนนต่ำกว่า 0.8 เป็นความเห็นพ้องที่อ่อนแอ มีเพียง 328 จาก 1,000 ข้อกล่าวอ้างเท่านั้นที่ได้ความเห็นพ้องแบบเอกฉันท์ และที่น่าสังเกตคือไม่มีข้อกล่าวอ้างใดที่ได้รับคำตัดสินแบบเอกฉันท์ว่า “ค่อนข้างจริง” (mostly true) นักวิจัยใช้ข้อกล่าวอ้างที่ผู้ใช้จริงส่งเข้ามายังแพลตฟอร์มตรวจสอบข้อเท็จจริงของ Lenz แทนการใช้ชุดทดสอบมาตรฐาน ซึ่งช่วยลดโอกาสที่โมเดลจะ “จับแพทเทิร์น” จากข้อมูลที่ใช้ฝึก