EVMbench ทดสอบเอเจนต์ AI ในการค้นหา 120 ช่องโหว่ในสมาร์ทคอนแทรกต์ Ethereum ที่เกิดขึ้นในโลกจริง
เครื่องมือนี้ประเมินการตรวจจับ การแก้ไข และการใช้ประโยชน์ในสามโหมดที่แตกต่างกัน
GPT-5.3-Codex ทำคะแนนสำเร็จ 72.2% ในการทดสอบโหมดการใช้ประโยชน์

OpenAI ผู้สร้าง ChatGPT และบริษัทลงทุนด้านคริปโต Paradigm ได้เปิดตัว EVMbench ซึ่งเป็นเครื่องมือช่วยปรับปรุงความปลอดภัยของสมาร์ทคอนแทรกต์บน Ethereum EVMbench ถูกออกแบบมาเพื่อประเมินความสามารถของเอเจนต์ AI ในการตรวจจับ แก้ไข และใช้ประโยชน์จากช่องโหว่รุนแรงในสมาร์ทคอนแทรกต์ของ Ethereum Virtual Machine (EVM) สมาร์ทคอนแทรกต์เป็นหัวใจของเครือข่าย Ethereum ซึ่งเก็บโค้ดที่ขับเคลื่อนทุกอย่างตั้งแต่โปรโตคอลการเงินแบบกระจายศูนย์ ไปจนถึงการเปิดตัวโทเค็น ตัวเลขสมาร์ทคอนแทรกต์ที่ถูกปล่อยบน Ethereum ในสัปดาห์นี้แตะระดับสูงสุดเป็นประวัติการณ์ที่ 1.7 ล้านรายการในเดือนพฤศจิกายน 2025 โดยมีจำนวน 669,500 รายการในสัปดาห์ที่ผ่านมาเพียงสัปดาห์เดียว ตามข้อมูลจาก Token Terminal

EVMbench อ้างอิงจากช่องโหว่ที่คัดเลือกมาแล้ว 120 รายการจากการตรวจสอบ 40 ครั้ง ซึ่งส่วนใหญ่มาจากการแข่งขันการตรวจสอบเปิด เช่น Code4rena ตามบทความบล็อกของ OpenAI นอกจากนี้ยังรวมถึงสถานการณ์จากกระบวนการตรวจสอบความปลอดภัยของ Tempo ซึ่งเป็นบล็อกเชนระดับชั้นแรกที่สร้างขึ้นโดย Stripe เน้นความเร็วสูงและค่าธรรมเนียมต่ำสำหรับการชำระเงินด้วย stablecoin บริษัทชำระเงิน Stripe เปิดตัวเทสเน็ตเวิร์กสาธารณะสำหรับ Tempo ในเดือนธันวาคม โดยระบุว่าได้สร้างขึ้นโดยได้รับความคิดเห็นจาก Visa, Shopify และ OpenAI รวมถึงผู้อื่น เป้าหมายคือให้การทดสอบอยู่บนโค้ดในโลกแห่งความเป็นจริงที่มีความหมายทางเศรษฐกิจ โดยเฉพาะอย่างยิ่งเมื่อการชำระเงินด้วย stablecoin ที่ขับเคลื่อนด้วย AI ขยายตัวขึ้น

> เปิดตัว EVMbench—เกณฑ์มาตรฐานใหม่ที่วัดความสามารถของเอเจนต์ AI ในการตรวจจับ ใช้ประโยชน์ และแก้ไขช่องโหว่สมาร์ทคอนแทรกต์ที่รุนแรง https://t.co/op5zufgAGH

— OpenAI (@OpenAI) 18 กุมภาพันธ์ 2026

EVMbench ถูกออกแบบมาเพื่อประเมินโมเดล AI ในสามโหมด ได้แก่ ตรวจจับ (Detect) แก้ไข (Patch) และใช้ประโยชน์ (Exploit) ในโหมด “ตรวจจับ” เอเจนต์จะทำการตรวจสอบรีโพสิทอรีและได้รับคะแนนตามความสามารถในการระลึกถึงช่องโหว่ที่เป็นความจริง ในโหมด “แก้ไข” เอเจนต์ต้องกำจัดช่องโหว่โดยไม่ทำลายฟังก์ชันการทำงานที่ตั้งใจไว้ สุดท้ายในโหมด “ใช้ประโยชน์” เอเจนต์จะพยายามโจมตีแบบเต็มรูปแบบเพื่อดูดเงินในสภาพแวดล้อมบล็อกเชนที่จำลองขึ้น โดยการให้คะแนนจะทำผ่านการเล่นธุรกรรมซ้ำแบบแน่นอน ในโหมดการใช้ประโยชน์ GPT-5.3-Codex ที่ทำงานผ่าน OpenAI's Codex CLI ได้คะแนน 72.2% เมื่อเทียบกับ GPT-5 ซึ่งเปิดตัวเมื่อหกเดือนก่อนที่ได้ 31.9% ผลการดำเนินงานในงานตรวจจับและแก้ไขยังอ่อนแอกว่า ซึ่งบางครั้งเอเจนต์ก็ไม่สามารถตรวจสอบอย่างละเอียดหรือรักษาฟังก์ชันสมบูรณ์ของคอนแทรกต์ได้ นักวิจัยจาก OpenAI ผู้สร้าง ChatGPT เตือนว่า EVMbench ยังไม่สามารถสะท้อนความซับซ้อนด้านความปลอดภัยในโลกแห่งความเป็นจริงได้อย่างเต็มที่ แต่พวกเขาเสริมว่าการวัดผลประสิทธิภาพของ AI ในสภาพแวดล้อมที่มีความสำคัญทางเศรษฐกิจเป็นสิ่งสำคัญ เนื่องจากโมเดลเหล่านี้กลายเป็นเครื่องมือที่ทรงพลังทั้งสำหรับผู้โจมตีและผู้ป้องกัน Sam Altman จาก OpenAI และ Vitalik Buterin ผู้ร่วมก่อตั้ง Ethereum เคยมีความเห็นไม่ตรงกันเกี่ยวกับความเร็วในการพัฒนา AI ในเดือนมกราคม 2025 Altman กล่าวว่า บริษัทของเขามั่นใจว่าเรารู้วิธีสร้าง AGI ตามความเข้าใจแบบดั้งเดิม แต่ Buterin สนับสนุนให้ระบบ AI ควรมีความสามารถในการหยุดชั่วคราว (soft pause) ซึ่งสามารถจำกัดการดำเนินงานของ AI ขนาดอุตสาหกรรมชั่วคราว หากมีสัญญาณเตือนปรากฏขึ้น

news.article.disclaimer

แสดงความคิดเห็น

0/400

ไม่มีความคิดเห็น