อาจารย์ประจำคณะธุรกิจวอร์ตันแห่งมหาวิทยาลัยเพนซิลเวเนีย Ethan Mollick ในโพสต์บนแพลตฟอร์ม X เมื่อวันที่ 4/25 ได้เสนอข้อสังเกตที่ส่งผลกระทบอย่างรุนแรงต่อแวดวงวิชาการว่า ปัจจุบัน AI agent สามารถทำซ้ำผลการวิจัยทางวิชาการที่ซับซ้อนได้อย่างอิสระ โดยไม่ต้องมีต้นฉบับบทความและไม่ต้องมีต้นฉบับโค้ด เพียงอาศัยคำอธิบายวิธีการและข้อมูลที่เผยแพร่อย่างสาธารณะเท่านั้น Mollick ยังกล่าวเพิ่มเติมว่า เมื่อเวอร์ชันที่ AI ทำซ้ำมีความแตกต่างจากบทความต้นฉบับ “ความผิดพลาดมักอยู่ที่ข้อความจากมนุษย์เอง ไม่ใช่ที่ AI” นี่คือจุดเปลี่ยนที่เป็นรูปธรรมของวิกฤตความสามารถในการทำซ้ำได้ของงานวิจัยในยุคของ generative AI—การยืนยันโดยผู้เชี่ยวชาญที่ต้องใช้ทรัพยากรบุคลากรจำนวนมากในอดีต กำลังถูก AI ทำได้ในวงกว้างด้วยต้นทุนต่ำ
Claude ทำซ้ำหลายบทความ แล้วตรวจซ้ำสองชั้นด้วย GPT-5 Pro
ในบล็อก OneUsefulThing และทวีตครั้งนี้ Mollick ได้บรรยายการทดลองเฉพาะของเขากับ Claude: นำบทความวิชาการหนึ่งฉบับมามอบให้ Claude ให้มันเปิดคลังเอกสาร จัดระเบียบไฟล์ แปลงโค้ดโปรแกรม STATA ที่ใช้ทำสถิติให้เป็น Python อัตโนมัติ จากนั้นจึงรันทีละรายการตาม “ข้อค้นพบทั้งหมด” ที่อยู่ในบทความ หลังจากที่ Claude ทำเสร็จแล้ว เขาก็นำผลการทำซ้ำชุดเดิมไปตรวจสอบรอบที่สองด้วย GPT-5 Pro หลายบทความถูกทดสอบด้วยวิธีเดียวกัน ผลโดยรวมประสบความสำเร็จ มีเพียงกรณีที่ไฟล์ข้อมูลมีขนาดใหญ่มาก หรือที่ replication data ดั้งเดิมมีปัญหาเท่านั้นที่ติดขัด
สำหรับแวดวงวิชาการ กระบวนการแบบนี้ในอดีตมักต้องใช้ผู้ช่วยวิจัยที่ใช้เวลาหลายสัปดาห์หรือหลายเดือน Mollick อธิบายว่าระยะเวลาที่ใช้เป็นตั้งแต่บ่ายถึงหนึ่งวัน และต้นทุนการรันก็มีเพียงค่าใช้จ่าย token ของ LLM API แบบเชิงพาณิชย์
ความผิดพลาดส่วนใหญ่อยู่ที่ต้นฉบับของมนุษย์ ไม่ใช่ AI
สิ่งที่ก่อให้เกิดความถกเถียงมากยิ่งขึ้นคือการประเมินว่า “ใครกันแน่ที่ผิด” ของ Mollick เขาระบุอย่างชัดเจนในทวีตว่า เมื่อผลการทำซ้ำของ AI ไม่สอดคล้องกับบทความต้นฉบับ ในกรณีส่วนใหญ่ไม่ได้เป็นเพราะ AI ทำผิด แต่เป็นเพราะบทความต้นฉบับมีข้อผิดพลาดในการประมวลผลข้อมูล การใช้โมเดลผิด หรือข้อสรุปที่เกินขอบเขตของข้อมูลที่สนับสนุนได้ ในช่วงทศวรรษที่ผ่านมา สาขาวิชาสังคมศาสตร์ เช่น จิตวิทยา เศรษฐศาสตร์พฤติกรรม และบริหารธุรกิจ ได้ปรากฏเหตุการณ์วิกฤตความสามารถในการทำซ้ำได้ครั้งใหญ่หลายครั้ง เหตุการณ์ที่โด่งดังที่สุดคือการวิจัยทำซ้ำขนาดใหญ่ของ 2015 Open Science Collaboration ซึ่งพบว่าผลการวิจัยด้านจิตวิทยาเพียงราว 36% เท่านั้นที่ถูกทำซ้ำได้อย่างอิสระ AI agent กำลังผลักดันกระบวนการตรวจสอบนี้จาก “ต้องจัดสรรด้วยบุคลากร” ไปสู่ “สิ่งที่สามารถทำได้อย่างแพร่หลาย”
ให้รู้จักแต่ยังห้าม AI เข้าสู่การพิจารณาต้นฉบับ รายละเอียดเชิงสถาบันตามไม่ทันเทคโนโลยี
ในการทวีตอีกข้อความหนึ่งเมื่อ 4/25 Mollick ได้ระบุชัดเจนถึงสมาคมที่ใหญ่ที่สุดในสาขาของเขา นั่นคือ Academy of Management ซึ่งยังคงห้าม AI เข้าสู่กระบวนการพิจารณาและตรวจประเมินบทความอย่างเป็นทางการ เขายกงานวิจัยที่มีอยู่ซึ่งชี้ว่า การตรวจโดย AI ในเรื่องความแม่นยำ ความสอดคล้อง และการควบคุมอคติ ได้ดีกว่าผู้ตรวจที่เป็นมนุษย์แบบดั้งเดิมบางส่วนอยู่แล้ว ดังนั้นจุดยืน “การห้าม” อาจกลับไปเพิ่มความล้มเหลวของระบบตรวจประเมินที่มีอยู่ในเชิงปริมาณมากขึ้น ช่องว่างระหว่างสถาบันกับเทคโนโลยีนี้คือประเด็นเชิงนโยบายที่วงการการตีพิมพ์วิชาการ สมาคม และหน่วยให้ทุนจำเป็นต้องเผชิญใน 1–2 ปีข้างหน้า
สำหรับผู้อ่าน การถกเถียงครั้งนี้ไม่ได้จำกัดอยู่แค่ในวงการวิชาการ เมื่อ AI agent สามารถยืนยันตรวจสอบข้อค้นพบจากงานวิจัยได้ทันที ภาคอุตสาหกรรมที่อ้างอิงงานวิจัย รายงานเชิงนโยบาย และหลักฐานทางวิศวกรรมในกระบวนการตัดสินใจด้านการเงิน จะเข้าสู่ “เกณฑ์การตรวจสอบใหม่” ที่ต้องดูว่า “ข้อสรุปนั้นทนทานต่อการทำซ้ำด้วย AI อย่างอิสระได้หรือไม่” จากส่วนเสริมในทวีตอีกครั้งของ Mollick เขามองว่า รัฐบาลคือหน่วยงานเดียวที่สามารถกำหนดหมุด/หลักการสำหรับการกำกับเกณฑ์การตรวจสอบนี้ได้เมื่อความเข้มของเครื่องมือยังคงเพิ่มขึ้นอย่างต่อเนื่อง—และความซับซ้อนของการออกแบบนโยบาย จะกลายเป็นแกนหลักอีกเส้นหนึ่งในการอภิปรายการกำกับดูแล AI ซึ่งมักถูกมองข้ามค่อนข้างมาก
บทความนี้ AI Agent สามารถทำซ้ำบทความวิชาการที่ซับซ้อนได้อย่างอิสระแล้ว: Mollick กล่าวว่า “ความผิดพลาดส่วนใหญ่อยู่ที่ต้นฉบับของมนุษย์ ไม่ใช่ AI” เป็นครั้งแรกที่เผยแพร่ใน 鏈新聞 ABMedia
news.related.news
Anthropic มูลค่าตลาดรองทะลุ 1 ล้านล้านดอลลาร์: Forge Global แซงหน้า OpenAI ที่ 8,800 ล้านล้าน
OpenAI เปิดตัว GPT-5.5: บริบท 12M, ดัชนี AA ขึ้นอันดับหนึ่ง, และ Terminal-Bench 82.7% ปรับปรุงมาตรฐานพร็อกซีใหม่
Anthropic เผยแพร่ปัญหาโค้ดของ Claude Code ซ้อนบั๊กสามชั้น: ความสามารถในการให้เหตุผลลดลง, ลืมค่าแคช, คำสั่ง 25 ตัวอักษรย้อนกลับเล่นงาน
บริษัทกฎหมายชั้นนำคิดค่าบริการมากกว่า 2,000 ดอลลาร์สหรัฐต่อชั่วโมง เอกสารของศาลถูกเปิดโปงว่า "AI กล่าวอ้างหลุดโลก ข้อผิดพลาดมากมาย"
เครื่องมือทำข้อสอบของ AI ถูกปนเปื้อนโดยกลุ่ม: คำตอบที่ถูกต้องของ Gemini 3 จำนวน 56% ไม่มีแหล่งที่มาสนับสนุน