การศึกษาที่ตีพิมพ์ในเดือนนี้โดยนักวิจัย Kosta Jordanov จาก Lenz Research พบว่าโมเดล AI แนวหน้า 5 รุ่นไม่เห็นตรงกันถึง 67% ของข้อกล่าวอ้างตรวจสอบข้อเท็จจริงในโลกจริงจำนวน 1,000 รายการ โดยมีความเห็นพ้องแบบเอกฉันท์เกิดขึ้นเพียง 328 ข้อเท่านั้น งานวิจัยทดสอบ GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro พร้อม Search และ Sonar Pro โดยใช้ข้อกล่าวอ้างที่ผู้ใช้งานตัวจริงส่งเข้ามาในแพลตฟอร์มตรวจสอบข้อเท็จจริง โมเดลได้คะแนน Krippendorff's alpha อยู่ที่ 0.639 ซึ่งต่ำกว่าเกณฑ์ 0.8 ที่นักวิจัยโดยทั่วไปมองว่าเชื่อถือได้ ความไม่ลงรอยเกิดขึ้นทั้งที่โมเดลทั้งหมดประเมินข้อกล่าวอ้างเดียวกันโดยใช้ระบบ 4 ป้ายเดียวกัน ได้แก่ true, mostly true, misleading หรือ false ผลการศึกษาชี้ให้เห็นถึงข้อกังวลด้านความน่าเชื่อถือ เนื่องจากผู้คนหันมาใช้ระบบ AI ในการตรวจสอบข้อเท็จจริงมากขึ้น

ระเบียบวิธีการศึกษาที่ใช้ข้อกล่าวอ้างที่ผู้ใช้ส่งจริง

งานวิจัยได้ให้โมเดล AI 5 รุ่นประเมินข้อกล่าวอ้างตรวจสอบข้อเท็จจริงในโลกจริงจำนวน 1,000 รายการแบบเดียวกัน ซึ่งเป็นข้อกล่าวอ้างที่ผู้ใช้งานตัวจริงส่งเข้ามา โมเดลต้องเลือก 1 ใน 4 ป้าย ได้แก่ true, mostly true, misleading หรือ false การศึกษานี้ใช้ข้อกล่าวอ้างที่ส่งโดยคนจริงให้แพลตฟอร์มตรวจสอบข้อเท็จจริงของ Lenz แทนที่จะดึงจากชุดทดสอบมาตรฐาน "ข้อกล่าวอ้างส่วนใหญ่ไม่น่าจะปรากฏในชุดข้อมูลฝึกใด ๆ ที่มี gold label แนบอยู่—ไม่มีคำตอบเฉลยเชิงมาตรฐานให้เทียบรูปแบบ ไม่มีบอร์ดผู้นำที่ใช้เป็นหมุดยึด" บทความระบุ

โมเดล AI 5 รุ่นไม่เห็นตรงกันใน 672 จาก 1,000 ข้อกล่าวอ้าง

ใน 672 จาก 1,000 ข้อกล่าวอ้าง อย่างน้อย 1 โมเดลหลุดออกจากเสียงส่วนใหญ่ ใน 34% ของกรณี ความไม่ลงรอยรุนแรง: โมเดลหนึ่งเรียกข้อกล่าวอ้างว่า true ขณะที่อีกโมเดลเรียกว่ false "นี่ไม่ใช่ชุดคำถามมาตรฐานที่มีคำตอบเฉลยสาธารณะ—เป็นข้อกล่าวอ้างที่ผู้ใช้ตัวจริงส่งเข้ามาเพื่อให้แพลตฟอร์มตรวจสอบข้อเท็จจริงยืนยัน" รายงานการศึกษาระบุ "มีได้แค่ 1 คำตัดสินที่ถูกต้องต่อ 1 ข้อกล่าวอ้าง ดังนั้นความไม่ลงรอยกันในคณะผู้ประเมินหมายความว่าอย่างน้อยคำตัดสินของโมเดลหนึ่งไม่สอดคล้องกับป้ายภายใต้กติกา 4 ช่องนี้"

คะแนนความน่าเชื่อถือเชิงสถิติ ต่ำกว่าค่าเกณฑ์มาตรฐาน

ตัวชี้วัดความเห็นพ้องกันทางสถิติที่เรียกว่า Krippendorff's alpha อยู่ที่ 0.639 ในสเกลที่ 1.0 หมายถึงความเห็นพ้องสมบูรณ์แบบ และ 0 หมายถึงโอกาสสุ่ม การศึกษากล่าวว่าสิ่งนี้บ่งชี้ว่าเป็น "ความเห็นพ้องที่มีนัยสำคัญแต่จำกัด" "คำตัดสินของโมเดลไม่ได้เป็นการสุ่ม แต่ยังไม่สม่ำเสมอพอที่จะถือว่าคณะผู้ประเมินเป็นผู้ตัดสินแบบแทนกันได้เพียงคนเดียว" นักวิจัยระบุ โดยทั่วไปนักวิจัยมองว่าสิ่งใดก็ตามที่ต่ำกว่า 0.8 คือความอ่อนแอ

โมเดลแสดงความแตกต่างรุนแรงบนตัวอย่างข้อกล่าวอ้าง

นักวิจัยได้ให้ตัวอย่างข้อกล่าวอ้างที่โมเดล AI แสดงความแตกต่างมากที่สุด รวมถึง "พอร์ตโฟลิโอที่ใช้งานอยู่ของธนาคารโลกในไนจีเรียมีมูลค่ามากกว่า 16.4 พันล้านดอลลาร์สหรัฐ ณ ปี 2025" ChatGPT 5.4 ระบุว่า "mostly true" ขณะที่ Gemini 3 Pro เรียกว่า "false" และโมเดลพี่น้อง Gemini 3 Pro + Search ให้คะแนนว่า "misleading"

ในอีกตัวอย่างหนึ่ง โมเดลได้รับข้อกล่าวอ้าง: "Donald Trump กล่าวว่า การโจมตีอิหร่านถูกเลื่อนออกไปตามคำขอของพันธมิตรอ่าว" GPT-5.4 ระบุว่า false ขณะที่ Claude Opus 4.7 เรียกว่า mostly true, Gemini 3 Pro บอกว่า false และ Gemini 3 Pro + Search ให้คะแนนว่า true

ความเห็นพ้องแบบเอกฉันท์เกิดขึ้นเฉพาะจุดสุดขั้วด้านข้อเท็จจริง

เมื่อโมเดลทั้ง 5 รุ่นเห็นพ้องกัน ซึ่งเกิดขึ้นเพียง 328 จาก 1,000 ข้อกล่าวอ้าง พวกเขาแทบไม่เคยเห็นพ้องว่าบางอย่างเป็น misleading หรือ mostly true มีเพียง 4 ข้อกล่าวอ้างเท่านั้นที่ได้คำตัดสินแบบเอกฉันท์ว่า "misleading" ไม่มีข้อใดได้คำตัดสินแบบเอกฉันท์ว่า "mostly true" "คณะผู้ประเมินมาบรรจบกันที่คำตัดสินที่ชัดเจน; ตรงกลางของสเกลคือช่วงที่แตกออก" นักวิจัยพบ เอกฉันท์เกิดขึ้นเฉพาะที่ปลายสุดเท่านั้น: ไม่ก็ข้อกล่าวอ้างนั้นจริงแน่ชัด หรือไม่ก็เท็จแน่ชัด

บทความระมัดระวังในการชี้ให้เห็นเรื่องนี้: "เสียงส่วนใหญ่ของโมเดลแนวหน้าไม่ได้เป็นความจริงแท้เสมอไป คำตัดสินของเสียงส่วนใหญ่บางครั้งผิด และโมเดลที่แย้งบางครั้งก็ถูก เราใช้เสียงส่วนใหญ่เป็นจุดอ้างอิงเชิงโครงสร้างสำหรับการวัดความไม่เห็นพ้อง ไม่ใช่ใช้แทนความถูกต้อง"

คำถามที่พบบ่อย

การศึกษาของ Lenz Research พบอะไรเกี่ยวกับความเห็นพ้องของโมเดล AI ในการตรวจสอบข้อเท็จจริง? การศึกษาพบว่าโมเดล AI แนวหน้า 5 รุ่นไม่เห็นตรงกันใน 67% ของข้อกล่าวอ้างตรวจสอบข้อเท็จจริงในโลกจริงจำนวน 1,000 รายการที่ผู้ใช้งานตัวจริงส่งเข้ามา ความเห็นพ้องแบบเอกฉันท์เกิดขึ้นเพียง 328 ข้อ และโมเดลได้คะแนน Krippendorff's alpha อยู่ที่ 0.639 ซึ่งต่ำกว่าเกณฑ์ความน่าเชื่อถือ 0.8 ที่นักวิจัยโดยทั่วไปมองว่ายอมรับได้

โมเดล AI ทำได้อย่างไรกับข้อกล่าวอ้างตัวอย่างเกี่ยวกับพอร์ตโฟลิโอของธนาคารโลกในไนจีเรีย? ChatGPT 5.4 ให้คะแนนข้อกล่าวอ้าง "พอร์ตโฟลิโอที่ใช้งานอยู่ของธนาคารโลกในไนจีเรียมีมูลค่ามากกว่า 16.4 พันล้านดอลลาร์สหรัฐ ณ ปี 2025" ว่า mostly true ขณะที่ Gemini 3 Pro เรียกว่า false และ Gemini 3 Pro + Search ให้คะแนนว่า misleading ซึ่งแสดงให้เห็นถึงความแตกต่างรุนแรงระหว่างโมเดลเมื่อพิจารณาข้อกล่าวอ้างเชิงข้อเท็จจริงเดียวกัน

ทำไมการศึกษาจึงใช้ข้อกล่าวอ้างที่ผู้ใช้ส่งจริง แทนชุดทดสอบมาตรฐาน? นักวิจัยใช้ข้อกล่าวอ้างที่ส่งโดยคนจริงให้แพลตฟอร์มตรวจสอบข้อเท็จจริงของ Lenz เพราะข้อกล่าวอ้างส่วนใหญ่ไม่น่าจะปรากฏในชุดข้อมูลฝึกใด ๆ ที่มี gold label แนบอยู่ ซึ่งช่วยตัดความเป็นไปได้ที่โมเดลจะเทียบรูปแบบกับคำตอบเฉลยของชุดอ้างอิง และทำให้การทดสอบความน่าเชื่อถือของการตรวจสอบข้อเท็จจริงมีความสมจริงมากขึ้น

news.view.source

news.article.disclaimer

news.related.news

6 ชั่วโมง ที่แล้ว

โมเดล AI แนวหน้าจำนวน 5 รายไม่เห็นด้วยกันถึง 67% ของข้อกล่าวอ้างที่ถูกตรวจสอบข้อเท็จจริงในการศึกษาล่าสุด

17 ชั่วโมง ที่แล้ว

ส่วนแบ่งตลาดของ ChatGPT ลดลงเหลือ 60% ขณะที่ Gemini พุ่งขึ้นแตะ 50% ในช่วง 6 เดือนที่ผ่านมา

19 ชั่วโมง ที่แล้ว

Apple ปรับโครงสร้าง Siri ด้วยโมเดล Gemini พารามิเตอร์ระดับล้านล้าน และ Nvidia เรื่องการประมวลผลแบบคอนฟิเดนเชียล

btc.bar.articles

ธนาคารชั้นนำ 3 อันดับแรกของญี่ปุ่นได้รับสิทธิ์เข้าถึง AI ของ OpenAI เพื่อการป้องกันภัยไซเบอร์

Oliver Grant15 ชั่วโมง ที่แล้ว

Vitalik ยืนยัน CROPS AI และชั้นการเข้าถึงของ Ethereum มีความซ้อนทับกัน โดย DeepSeek V4 เป็นเครื่องมือหลัก

Market Whisper20 ชั่วโมง ที่แล้ว

โหมดเร็วของ Anthropic Opus ลดลงเหลือ 10 ดอลลาร์ ขณะที่ Mythos เปิดให้ใช้งานเต็มรูปแบบภายในไม่กี่สัปดาห์

Market Whisper20 ชั่วโมง ที่แล้ว

การสำรวจของ Entelligence AI: การใช้จ่ายด้านวิศวกรรม AI 82% สูญเสียไปกับการแก้ไขโค้ดที่มีช่องโหว่และความล่าช้า

Market Whisper21 ชั่วโมง ที่แล้ว

Gemini เปิดตัวศูนย์บัญชาการคำสั่งด้วย AI ที่ขับเคลื่อนโดย Grok พร้อมรายงานผลประกอบการไตรมาส 1 ที่หลากหลาย

Oliver Grant05-28 20:45

แสดงความคิดเห็น

0/400

ไม่มีความคิดเห็น