สรุปโดยย่อ
OpenAI ผู้สร้าง ChatGPT และบริษัทลงทุนด้านคริปโต Paradigm ได้เปิดตัว EVMbench ซึ่งเป็นเครื่องมือช่วยปรับปรุงความปลอดภัยของสมาร์ทคอนแทรกต์บน Ethereum EVMbench ถูกออกแบบมาเพื่อประเมินความสามารถของเอเจนต์ AI ในการตรวจจับ แก้ไข และใช้ประโยชน์จากช่องโหว่รุนแรงในสมาร์ทคอนแทรกต์ของ Ethereum Virtual Machine (EVM) สมาร์ทคอนแทรกต์เป็นหัวใจของเครือข่าย Ethereum ซึ่งเก็บโค้ดที่ขับเคลื่อนทุกอย่างตั้งแต่โปรโตคอลการเงินแบบกระจายศูนย์ ไปจนถึงการเปิดตัวโทเค็น ตัวเลขสมาร์ทคอนแทรกต์ที่ถูกปล่อยบน Ethereum ในสัปดาห์นี้แตะระดับสูงสุดเป็นประวัติการณ์ที่ 1.7 ล้านรายการในเดือนพฤศจิกายน 2025 โดยมีจำนวน 669,500 รายการในสัปดาห์ที่ผ่านมาเพียงสัปดาห์เดียว ตามข้อมูลจาก Token Terminal
EVMbench อ้างอิงจากช่องโหว่ที่คัดเลือกมาแล้ว 120 รายการจากการตรวจสอบ 40 ครั้ง ซึ่งส่วนใหญ่มาจากการแข่งขันการตรวจสอบเปิด เช่น Code4rena ตามบทความบล็อกของ OpenAI นอกจากนี้ยังรวมถึงสถานการณ์จากกระบวนการตรวจสอบความปลอดภัยของ Tempo ซึ่งเป็นบล็อกเชนระดับชั้นแรกที่สร้างขึ้นโดย Stripe เน้นความเร็วสูงและค่าธรรมเนียมต่ำสำหรับการชำระเงินด้วย stablecoin บริษัทชำระเงิน Stripe เปิดตัวเทสเน็ตเวิร์กสาธารณะสำหรับ Tempo ในเดือนธันวาคม โดยระบุว่าได้สร้างขึ้นโดยได้รับความคิดเห็นจาก Visa, Shopify และ OpenAI รวมถึงผู้อื่น เป้าหมายคือให้การทดสอบอยู่บนโค้ดในโลกแห่งความเป็นจริงที่มีความหมายทางเศรษฐกิจ โดยเฉพาะอย่างยิ่งเมื่อการชำระเงินด้วย stablecoin ที่ขับเคลื่อนด้วย AI ขยายตัวขึ้น
> เปิดตัว EVMbench—เกณฑ์มาตรฐานใหม่ที่วัดความสามารถของเอเจนต์ AI ในการตรวจจับ ใช้ประโยชน์ และแก้ไขช่องโหว่สมาร์ทคอนแทรกต์ที่รุนแรง https://t.co/op5zufgAGH
— OpenAI (@OpenAI) 18 กุมภาพันธ์ 2026
EVMbench ถูกออกแบบมาเพื่อประเมินโมเดล AI ในสามโหมด ได้แก่ ตรวจจับ (Detect) แก้ไข (Patch) และใช้ประโยชน์ (Exploit) ในโหมด “ตรวจจับ” เอเจนต์จะทำการตรวจสอบรีโพสิทอรีและได้รับคะแนนตามความสามารถในการระลึกถึงช่องโหว่ที่เป็นความจริง ในโหมด “แก้ไข” เอเจนต์ต้องกำจัดช่องโหว่โดยไม่ทำลายฟังก์ชันการทำงานที่ตั้งใจไว้ สุดท้ายในโหมด “ใช้ประโยชน์” เอเจนต์จะพยายามโจมตีแบบเต็มรูปแบบเพื่อดูดเงินในสภาพแวดล้อมบล็อกเชนที่จำลองขึ้น โดยการให้คะแนนจะทำผ่านการเล่นธุรกรรมซ้ำแบบแน่นอน ในโหมดการใช้ประโยชน์ GPT-5.3-Codex ที่ทำงานผ่าน OpenAI's Codex CLI ได้คะแนน 72.2% เมื่อเทียบกับ GPT-5 ซึ่งเปิดตัวเมื่อหกเดือนก่อนที่ได้ 31.9% ผลการดำเนินงานในงานตรวจจับและแก้ไขยังอ่อนแอกว่า ซึ่งบางครั้งเอเจนต์ก็ไม่สามารถตรวจสอบอย่างละเอียดหรือรักษาฟังก์ชันสมบูรณ์ของคอนแทรกต์ได้ นักวิจัยจาก OpenAI ผู้สร้าง ChatGPT เตือนว่า EVMbench ยังไม่สามารถสะท้อนความซับซ้อนด้านความปลอดภัยในโลกแห่งความเป็นจริงได้อย่างเต็มที่ แต่พวกเขาเสริมว่าการวัดผลประสิทธิภาพของ AI ในสภาพแวดล้อมที่มีความสำคัญทางเศรษฐกิจเป็นสิ่งสำคัญ เนื่องจากโมเดลเหล่านี้กลายเป็นเครื่องมือที่ทรงพลังทั้งสำหรับผู้โจมตีและผู้ป้องกัน Sam Altman จาก OpenAI และ Vitalik Buterin ผู้ร่วมก่อตั้ง Ethereum เคยมีความเห็นไม่ตรงกันเกี่ยวกับความเร็วในการพัฒนา AI ในเดือนมกราคม 2025 Altman กล่าวว่า บริษัทของเขามั่นใจว่าเรารู้วิธีสร้าง AGI ตามความเข้าใจแบบดั้งเดิม แต่ Buterin สนับสนุนให้ระบบ AI ควรมีความสามารถในการหยุดชั่วคราว (soft pause) ซึ่งสามารถจำกัดการดำเนินงานของ AI ขนาดอุตสาหกรรมชั่วคราว หากมีสัญญาณเตือนปรากฏขึ้น