ตามที่นักวิจัย Kosta Jordanov จาก Lenz Research ระบุว่า โมเดล AI ระดับแนวหน้า 5 รุ่นไม่ตรงกันใน 67% ของข้อกล่าวอ้างตรวจสอบข้อเท็จจริงในโลกจริงจำนวน 1,000 ข้อที่ถูกทดสอบในเดือนนี้ โมเดลเหล่านี้—GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro with Search และ Sonar Pro—ถูกให้จัดประเภทข้อกล่าวอ้างว่าเป็นจริง (true), ค่อนข้างจริง (mostly true), ทำให้เข้าใจผิด (misleading) หรือเท็จ (false) ใน 34% ของกรณี ความไม่เห็นพ้องอยู่ในระดับรุนแรง โดยโมเดลหนึ่งระบุว่าข้อกล่าวอ้างนั้นเป็นจริง ขณะที่อีกโมเดลหนึ่งกลับติดป้ายว่าเป็นเท็จ

การศึกษานี้วัดระดับความเห็นพ้องโดยใช้ Krippendorff's alpha ซึ่งได้คะแนน 0.639 ในสเกลที่ 1.0 หมายถึงความเห็นพ้องที่สมบูรณ์แบบ โดยทั่วไปนักวิจัยมักมองว่าคะแนนต่ำกว่า 0.8 เป็นความเห็นพ้องที่อ่อนแอ มีเพียง 328 จาก 1,000 ข้อกล่าวอ้างเท่านั้นที่ได้ความเห็นพ้องแบบเอกฉันท์ และที่น่าสังเกตคือไม่มีข้อกล่าวอ้างใดที่ได้รับคำตัดสินแบบเอกฉันท์ว่า “ค่อนข้างจริง” (mostly true) นักวิจัยใช้ข้อกล่าวอ้างที่ผู้ใช้จริงส่งเข้ามายังแพลตฟอร์มตรวจสอบข้อเท็จจริงของ Lenz แทนการใช้ชุดทดสอบมาตรฐาน ซึ่งช่วยลดโอกาสที่โมเดลจะ “จับแพทเทิร์น” จากข้อมูลที่ใช้ฝึก

news.view.source

news.article.disclaimer

news.related.news

8 ชั่วโมง ที่แล้ว

OpenAI ขยายการเข้าถึง GPT-Rosalind ให้แก่รัฐบาลสหรัฐและพันธมิตรในวันที่ 29 พฤษภาคม

9 ชั่วโมง ที่แล้ว

Google Gemini เปิดตัวมาตรการปรับปรุง 6 รายการ รวมถึง Free Flash-Lite และเพิ่มขีดจำกัดวิดีโอเป็น 2 เท่า

11 ชั่วโมง ที่แล้ว

ส่วนแบ่งตลาดของ ChatGPT ลดลงเหลือ 60% ขณะที่ Gemini พุ่งขึ้นแตะ 50% ในช่วง 6 เดือนที่ผ่านมา

12 ชั่วโมง ที่แล้ว

รายงานของ Microsoft: บัญชีสำหรับการตัดสินใจด้วย AI คิดเป็น 28% ของกิจกรรมในที่ทำงาน ณ วันที่ 29 พฤษภาคม

14 ชั่วโมง ที่แล้ว