การศึกษาที่ตีพิมพ์ในเดือนนี้โดยนักวิจัย Kosta Jordanov จาก Lenz Research พบว่าโมเดล AI แนวหน้า 5 รุ่นไม่เห็นตรงกันถึง 67% ของข้อกล่าวอ้างตรวจสอบข้อเท็จจริงในโลกจริงจำนวน 1,000 รายการ โดยมีความเห็นพ้องแบบเอกฉันท์เกิดขึ้นเพียง 328 ข้อเท่านั้น งานวิจัยทดสอบ GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro พร้อม Search และ Sonar Pro โดยใช้ข้อกล่าวอ้างที่ผู้ใช้งานตัวจริงส่งเข้ามาในแพลตฟอร์มตรวจสอบข้อเท็จจริง โมเดลได้คะแนน Krippendorff's alpha อยู่ที่ 0.639 ซึ่งต่ำกว่าเกณฑ์ 0.8 ที่นักวิจัยโดยทั่วไปมองว่าเชื่อถือได้ ความไม่ลงรอยเกิดขึ้นทั้งที่โมเดลทั้งหมดประเมินข้อกล่าวอ้างเดียวกันโดยใช้ระบบ 4 ป้ายเดียวกัน ได้แก่ true, mostly true, misleading หรือ false ผลการศึกษาชี้ให้เห็นถึงข้อกังวลด้านความน่าเชื่อถือ เนื่องจากผู้คนหันมาใช้ระบบ AI ในการตรวจสอบข้อเท็จจริงมากขึ้น
งานวิจัยได้ให้โมเดล AI 5 รุ่นประเมินข้อกล่าวอ้างตรวจสอบข้อเท็จจริงในโลกจริงจำนวน 1,000 รายการแบบเดียวกัน ซึ่งเป็นข้อกล่าวอ้างที่ผู้ใช้งานตัวจริงส่งเข้ามา โมเดลต้องเลือก 1 ใน 4 ป้าย ได้แก่ true, mostly true, misleading หรือ false การศึกษานี้ใช้ข้อกล่าวอ้างที่ส่งโดยคนจริงให้แพลตฟอร์มตรวจสอบข้อเท็จจริงของ Lenz แทนที่จะดึงจากชุดทดสอบมาตรฐาน "ข้อกล่าวอ้างส่วนใหญ่ไม่น่าจะปรากฏในชุดข้อมูลฝึกใด ๆ ที่มี gold label แนบอยู่—ไม่มีคำตอบเฉลยเชิงมาตรฐานให้เทียบรูปแบบ ไม่มีบอร์ดผู้นำที่ใช้เป็นหมุดยึด" บทความระบุ
ใน 672 จาก 1,000 ข้อกล่าวอ้าง อย่างน้อย 1 โมเดลหลุดออกจากเสียงส่วนใหญ่ ใน 34% ของกรณี ความไม่ลงรอยรุนแรง: โมเดลหนึ่งเรียกข้อกล่าวอ้างว่า true ขณะที่อีกโมเดลเรียกว่ false "นี่ไม่ใช่ชุดคำถามมาตรฐานที่มีคำตอบเฉลยสาธารณะ—เป็นข้อกล่าวอ้างที่ผู้ใช้ตัวจริงส่งเข้ามาเพื่อให้แพลตฟอร์มตรวจสอบข้อเท็จจริงยืนยัน" รายงานการศึกษาระบุ "มีได้แค่ 1 คำตัดสินที่ถูกต้องต่อ 1 ข้อกล่าวอ้าง ดังนั้นความไม่ลงรอยกันในคณะผู้ประเมินหมายความว่าอย่างน้อยคำตัดสินของโมเดลหนึ่งไม่สอดคล้องกับป้ายภายใต้กติกา 4 ช่องนี้"
ตัวชี้วัดความเห็นพ้องกันทางสถิติที่เรียกว่า Krippendorff's alpha อยู่ที่ 0.639 ในสเกลที่ 1.0 หมายถึงความเห็นพ้องสมบูรณ์แบบ และ 0 หมายถึงโอกาสสุ่ม การศึกษากล่าวว่าสิ่งนี้บ่งชี้ว่าเป็น "ความเห็นพ้องที่มีนัยสำคัญแต่จำกัด" "คำตัดสินของโมเดลไม่ได้เป็นการสุ่ม แต่ยังไม่สม่ำเสมอพอที่จะถือว่าคณะผู้ประเมินเป็นผู้ตัดสินแบบแทนกันได้เพียงคนเดียว" นักวิจัยระบุ โดยทั่วไปนักวิจัยมองว่าสิ่งใดก็ตามที่ต่ำกว่า 0.8 คือความอ่อนแอ
นักวิจัยได้ให้ตัวอย่างข้อกล่าวอ้างที่โมเดล AI แสดงความแตกต่างมากที่สุด รวมถึง "พอร์ตโฟลิโอที่ใช้งานอยู่ของธนาคารโลกในไนจีเรียมีมูลค่ามากกว่า 16.4 พันล้านดอลลาร์สหรัฐ ณ ปี 2025" ChatGPT 5.4 ระบุว่า "mostly true" ขณะที่ Gemini 3 Pro เรียกว่า "false" และโมเดลพี่น้อง Gemini 3 Pro + Search ให้คะแนนว่า "misleading"
ในอีกตัวอย่างหนึ่ง โมเดลได้รับข้อกล่าวอ้าง: "Donald Trump กล่าวว่า การโจมตีอิหร่านถูกเลื่อนออกไปตามคำขอของพันธมิตรอ่าว" GPT-5.4 ระบุว่า false ขณะที่ Claude Opus 4.7 เรียกว่า mostly true, Gemini 3 Pro บอกว่า false และ Gemini 3 Pro + Search ให้คะแนนว่า true
เมื่อโมเดลทั้ง 5 รุ่นเห็นพ้องกัน ซึ่งเกิดขึ้นเพียง 328 จาก 1,000 ข้อกล่าวอ้าง พวกเขาแทบไม่เคยเห็นพ้องว่าบางอย่างเป็น misleading หรือ mostly true มีเพียง 4 ข้อกล่าวอ้างเท่านั้นที่ได้คำตัดสินแบบเอกฉันท์ว่า "misleading" ไม่มีข้อใดได้คำตัดสินแบบเอกฉันท์ว่า "mostly true" "คณะผู้ประเมินมาบรรจบกันที่คำตัดสินที่ชัดเจน; ตรงกลางของสเกลคือช่วงที่แตกออก" นักวิจัยพบ เอกฉันท์เกิดขึ้นเฉพาะที่ปลายสุดเท่านั้น: ไม่ก็ข้อกล่าวอ้างนั้นจริงแน่ชัด หรือไม่ก็เท็จแน่ชัด
บทความระมัดระวังในการชี้ให้เห็นเรื่องนี้: "เสียงส่วนใหญ่ของโมเดลแนวหน้าไม่ได้เป็นความจริงแท้เสมอไป คำตัดสินของเสียงส่วนใหญ่บางครั้งผิด และโมเดลที่แย้งบางครั้งก็ถูก เราใช้เสียงส่วนใหญ่เป็นจุดอ้างอิงเชิงโครงสร้างสำหรับการวัดความไม่เห็นพ้อง ไม่ใช่ใช้แทนความถูกต้อง"
การศึกษาของ Lenz Research พบอะไรเกี่ยวกับความเห็นพ้องของโมเดล AI ในการตรวจสอบข้อเท็จจริง? การศึกษาพบว่าโมเดล AI แนวหน้า 5 รุ่นไม่เห็นตรงกันใน 67% ของข้อกล่าวอ้างตรวจสอบข้อเท็จจริงในโลกจริงจำนวน 1,000 รายการที่ผู้ใช้งานตัวจริงส่งเข้ามา ความเห็นพ้องแบบเอกฉันท์เกิดขึ้นเพียง 328 ข้อ และโมเดลได้คะแนน Krippendorff's alpha อยู่ที่ 0.639 ซึ่งต่ำกว่าเกณฑ์ความน่าเชื่อถือ 0.8 ที่นักวิจัยโดยทั่วไปมองว่ายอมรับได้
โมเดล AI ทำได้อย่างไรกับข้อกล่าวอ้างตัวอย่างเกี่ยวกับพอร์ตโฟลิโอของธนาคารโลกในไนจีเรีย? ChatGPT 5.4 ให้คะแนนข้อกล่าวอ้าง "พอร์ตโฟลิโอที่ใช้งานอยู่ของธนาคารโลกในไนจีเรียมีมูลค่ามากกว่า 16.4 พันล้านดอลลาร์สหรัฐ ณ ปี 2025" ว่า mostly true ขณะที่ Gemini 3 Pro เรียกว่า false และ Gemini 3 Pro + Search ให้คะแนนว่า misleading ซึ่งแสดงให้เห็นถึงความแตกต่างรุนแรงระหว่างโมเดลเมื่อพิจารณาข้อกล่าวอ้างเชิงข้อเท็จจริงเดียวกัน
ทำไมการศึกษาจึงใช้ข้อกล่าวอ้างที่ผู้ใช้ส่งจริง แทนชุดทดสอบมาตรฐาน? นักวิจัยใช้ข้อกล่าวอ้างที่ส่งโดยคนจริงให้แพลตฟอร์มตรวจสอบข้อเท็จจริงของ Lenz เพราะข้อกล่าวอ้างส่วนใหญ่ไม่น่าจะปรากฏในชุดข้อมูลฝึกใด ๆ ที่มี gold label แนบอยู่ ซึ่งช่วยตัดความเป็นไปได้ที่โมเดลจะเทียบรูปแบบกับคำตอบเฉลยของชุดอ้างอิง และทำให้การทดสอบความน่าเชื่อถือของการตรวจสอบข้อเท็จจริงมีความสมจริงมากขึ้น
news.related.news
ธนาคารชั้นนำ 3 อันดับแรกของญี่ปุ่นได้รับสิทธิ์เข้าถึง AI ของ OpenAI เพื่อการป้องกันภัยไซเบอร์
Vitalik ยืนยัน CROPS AI และชั้นการเข้าถึงของ Ethereum มีความซ้อนทับกัน โดย DeepSeek V4 เป็นเครื่องมือหลัก
โหมดเร็วของ Anthropic Opus ลดลงเหลือ 10 ดอลลาร์ ขณะที่ Mythos เปิดให้ใช้งานเต็มรูปแบบภายในไม่กี่สัปดาห์
การสำรวจของ Entelligence AI: การใช้จ่ายด้านวิศวกรรม AI 82% สูญเสียไปกับการแก้ไขโค้ดที่มีช่องโหว่และความล่าช้า
Gemini เปิดตัวศูนย์บัญชาการคำสั่งด้วย AI ที่ขับเคลื่อนโดย Grok พร้อมรายงานผลประกอบการไตรมาส 1 ที่หลากหลาย