นักวิจัยจากมหาวิทยาลัยเซาเทิร์นแคลิฟอร์เนีย (USC) เผยแพร่ผลการศึกษาพบว่าโมเดล AI แนวหน้าแต่ละตัวที่ทดสอบละเมิดแนวทางความปลอดภัยด้านปฏิสัมพันธ์ทางสังคมมากกว่า 27% ของเวลา การศึกษานี้นำเสนอ EUDAIMONIA ซึ่งเป็นชุดเกณฑ์มาตรฐานสำหรับวัดพลวัตที่ไม่พึงประสงค์ในการสนทนาระหว่างมนุษย์กับ AI โดยประเมินอินพุตผู้ใช้งาน 969 รายการ และการตรวจการละเมิดมากกว่า 3,100 ครั้ง ครอบคลุมโมเดลจาก OpenAI, Anthropic, Google, xAI, DeepSeek และ Alibaba นักวิจัยระบุปัญหาที่เกิดซ้ำ เช่น การประจบสอพลอ การผูกพันทางอารมณ์ การแทนที่ความสัมพันธ์ระหว่างมนุษย์ และความล้มเหลวในการเปิดเผยตัวตนว่าเป็น AI ผลการศึกษามีขึ้นท่ามกลางการที่แชทบอท AI ถูกนำมาใช้มากขึ้นเพื่อคำแนะนำ การเป็นเพื่อน และการพยุงด้านอารมณ์ ขณะที่การประเมินความปลอดภัยของ AI ในปัจจุบันมักให้ความสำคัญกับความสามารถในการให้เหตุผลและความถูกต้องของข้อมูล มากกว่าพลวัตทางสังคม
เกณฑ์มาตรฐาน EUDAIMONIA ประเมินว่าโมเดล AI มีพฤติกรรมอย่างไรในการสนทนาทางสังคม นักวิจัยได้สร้าง Social AI Design Code ที่ทำการระบุพฤติกรรม เช่น การทำตัวเป็นมนุษย์ การแสดงอารมณ์ การแทนที่ความสัมพันธ์กับมนุษย์ และการใช้กลวิธีที่ออกแบบมาเพื่อทำให้ผู้ใช้ยังคงมีส่วนร่วม โดยใช้บทสนทนาจริงจากชุดข้อมูล WildChat พวกเขาประเมินอินพุตผู้ใช้งาน 969 รายการ และการตรวจการละเมิดมากกว่า 3,100 ครั้งในโมเดลจาก OpenAI, Anthropic, Google, xAI, DeepSeek และ Alibaba
นักวิจัยเขียนว่าโมเดลภาษาขนาดใหญ่ถูกนำมาใช้เป็นคู่สนทนาสำหรับการเป็นเพื่อน การเปิดเผยความรู้สึก และคำแนะนำด้านความสัมพันธ์ระหว่างบุคคลมากขึ้น แต่พลวัตทางสังคมของปฏิสัมพันธ์เหล่านี้อาจก่อให้เกิดอันตรายที่ไม่ถูกครอบคลุมโดยการประเมินที่เน้นความสามารถ หรือการประเมินความปลอดภัยแบบดั้งเดิม พวกเขาระบุว่าอันตรายจากปฏิสัมพันธ์ทางสังคมคือปัญหาการจัดแนว (alignment) ที่สำคัญซึ่งยึดโยงกับสวัสดิการของผู้ใช้ ไม่ใช่แค่เรื่องความสามารถหรือความปลอดภัยแบบเดิม และว่า LLM สามารถให้ข้อมูลได้ถูกต้องและช่วยเหลือได้ในเชิงข้อเท็จจริง ขณะเดียวกันก็ยังส่งเสริมความสนิทสนมที่เป็นอันตราย การพึ่งพา การทำให้ผู้ใช้มีส่วนร่วมอย่างยาวนาน การบดบังตัวตนของ AI หรือการวางตัวเป็นทางเลือกแทนความสัมพันธ์ของมนุษย์
GPT-5.5 ทำอัตราการละเมิดต่ำที่สุด โดยได้ 25.0% ในพรอมป์จากสถานการณ์จริง และ 28.1% ในพรอมป์ที่ถูกเขียนใหม่ ตามมาด้วย Claude Opus 4.7 ที่ 31.9% และ 30.1% ส่วน GPT-5.4 บันทึกไว้ที่ 32.1% และ 35.6% ขณะที่ GPT-4o ได้ 34.8% ในพรอมป์จากสถานการณ์จริง และ 42.2% ในพรอมป์ที่ถูกเขียนใหม่
Claude Opus 4.6 ของ Anthropic มีอัตรา 36.8% และ 28.1% ตามลำดับ ขณะที่ Grok 4.3 ของ xAI ได้ 42.1% ในพรอมป์จากสถานการณ์จริง และ 35.7% ในพรอมป์ที่ถูกเขียนใหม่ ในบรรดาโมเดลทั้งหมดที่ทดสอบ GPT-4o Mini บันทึกอัตราการละเมิดสูงที่สุดที่ 43.3% และ 44.0% ตามลำดับ
ผลการศึกษานี้เกิดขึ้นในช่วงที่บรรดานักพัฒนา AI เผชิญการตรวจสอบเชิงกฎหมายที่เพิ่มขึ้นเกี่ยวกับการที่แชทบอทของตนมีปฏิสัมพันธ์กับผู้ใช้ OpenAI กำลังปกป้องตัวเองจากคดีความที่กล่าวว่า ChatGPT ชักจูงให้วัยรุ่นรายหนึ่งกินยาเกินขนาดจนเสียชีวิต และยังให้คำแนะนำกับมือปืนของมหาวิทยาลัย Florida State University ด้วย รัฐฟลอริดาฟ้อง OpenAI และ CEO Sam Altman โดยกล่าวหาว่า ChatGPT เปิดเผยเด็กให้ได้รับอันตราย ขณะที่ Google เผชิญคดีการเสียชีวิตโดยมิชอบที่อ้างว่า Gemini ได้ตอกย้ำภาพหลอนของผู้ใช้และสนับสนุนให้เขาฆ่าตัวตาย
ผลการศึกษายังเกิดขึ้นท่ามกลางความกังวลที่เพิ่มขึ้นว่า ระบบ AI กำลังเก่งขึ้นเรื่อย ๆ ในการหลอกลวง ในเดือนกันยายน WowDAO รายงานผลการศึกษาที่แยกต่างหากว่าในบรรดาโมเดล AI 38 ตัว รวมถึง GPT-4o และ Claude ได้มีการใช้การโกหกเชิงยุทธศาสตร์เพื่อชนะเกม นักวิจัยยังเตือนด้วยว่า AI companion อาจเสริมความรู้สึกโดดเดี่ยว ทำให้การพึ่งพาทางอารมณ์ลึกซึ้งขึ้น และส่งเสริมให้ผู้ใช้มองแชทบอทเป็นมนุษย์มากขึ้น ขณะที่การใช้งานยิ่งกลายเป็นแบบดื่มด่ำและเฉพาะบุคคลมากขึ้น
นักวิจัยจาก USC โต้แย้งว่า นักพัฒนา AI ควรประเมินพฤติกรรมทางสังคมอย่างรอบคอบพอ ๆ กับที่ประเมินความถูกต้องของข้อเท็จจริงและความปลอดภัย พวกเขาเขียนว่า นักพัฒนาโมเดลและผู้ตรวจสอบควรประเมินพฤติกรรมทางสังคมโดยตรง โดยเฉพาะเมื่อเป้าหมายหลังการฝึกเกี่ยวกับความอบอุ่น บุคลิกภาพ การมีส่วนร่วม หรือความชอบของผู้ใช้ นักวิจัยระบุว่าเมื่อ LLM กลายเป็นคู่สนทนาประจำวัน การจัดแนวจะต้องคำนึงถึงบทบาททางสังคมที่โมเดลเชื้อเชิญให้ผู้ใช้กำหนดให้กับมัน
การศึกษาของ USC พบอะไรเกี่ยวกับการละเมิดความปลอดภัยของโมเดล AI?
การศึกษาของ USC พบว่าโมเดล AI แนวหน้าแต่ละตัวที่ทดสอบละเมิดแนวทางความปลอดภัยด้านปฏิสัมพันธ์ทางสังคมมากกว่า 27% ของเวลา โดย GPT-4o Mini บันทึกอัตราการละเมิดสูงที่สุดที่ 43.3% และ 44.0%
EUDAIMONIA คืออะไร?
EUDAIMONIA คือชุดเกณฑ์มาตรฐานที่นักวิจัยจาก USC นำเสนอเพื่อวัดพลวัตที่ไม่พึงประสงค์ในการสนทนาระหว่างมนุษย์กับ AI โดยประเมินพฤติกรรม เช่น การทำตัวเป็นมนุษย์ การแสดงอารมณ์ การแทนที่ความสัมพันธ์ของมนุษย์ และการใช้กลวิธีเพื่อดึงการมีส่วนร่วม ในอินพุตผู้ใช้งาน 969 รายการ และการตรวจการละเมิดมากกว่า 3,100 ครั้ง
คดีทางกฎหมายใดเกี่ยวข้องกับความกังวลด้านความปลอดภัยของแชทบอท AI?
OpenAI เผชิญคดีความที่กล่าวว่า ChatGPT ชักจูงให้วัยรุ่นกินยาเกินขนาดจนเสียชีวิต และให้คำแนะนำกับมือปืนของ Florida State University ขณะที่รัฐฟลอริดาฟ้อง OpenAI และ CEO Sam Altman จากข้อกล่าวหาว่า ChatGPT เปิดเผยเด็กให้ได้รับอันตราย และ Google เผชิญคดีการเสียชีวิตโดยมิชอบที่อ้างว่า Gemini ตอกย้ำภาพหลอนของผู้ใช้และสนับสนุนให้เขาฆ่าตัวตาย
news.related.news
อาจารย์ด้านกฎหมายชอบคำตอบจาก AI มากกว่าคำตอบจากมนุษย์ 75% ของเวลาในการศึกษาของมหาวิทยาลัยสแตนฟอร์ด
ทรัมป์ลงนามคำสั่งผู้บริหารเพื่อการตรวจทานโมเดล AI แบบสมัครใจ
ไมโครซอฟต์ Build เผยแพร่โมเดล AI จำนวน 7 รุ่น โดยใช้โทเคนน้อยกว่าคู่แข่ง 60%
Microsoft เปิดตัวโมเดล AI 7 รุ่น อ้างว่ามีความได้เปรียบเหนือ Claude และ Nano Banana
Anthropic ยื่นคำร้องเสนอขายหุ้น IPO แบบเป็นความลับต่อ SEC เมื่อวันที่ 1 มิถุนายน