OpenAI 推出加密代币和智能合约安全性基准测试体系

CoinsProbe
ETH2.46%
DEFI4.91%


关键要点

  • OpenAI 已推出 EVMbench,这是与 Paradigm 共同开发的新的基准测试系统,用于测试先进的 AI 模型如何检测、修补和利用以太坊智能合约中的漏洞。

  • 早期结果显示存在“利用差距”,目前顶级模型在执行攻击方面优于全面审计或修补缺陷——这既凸显了 AI 的快速进步,也带来了新兴的风险。

  • EVMbench 可能重新定义加密安全标准,使 DeFi 团队能够持续进行 AI 驱动的审计,并在数十亿美元资产链上转移时提供机构级保障。


在人工智能与区块链技术的重大融合中,OpenAI 正式推出了 EVMbench。该系统由与加密投资巨头 Paradigm 战略合作开发,旨在严格测试 AI 代理在以太坊虚拟机(EVM)生态系统中识别、利用和修复漏洞的能力。

目前,智能合约保障的开源加密资产超过 1,000 亿美元,风险前所未有。EVMbench 代表了一种积极的转变,利用“前沿模型”来保护去中心化金融(DeFi)免受日益复杂的网络威胁。

资料来源:openai

EVMbench 的三大支柱

EVMbench 超越静态代码分析,通过评估 AI 代理在三种高风险操作模式下的表现。这一“检测-修补-利用”循环模仿了顶级安全研究员的实际工作流程。

  • 1. 检测模式(审计员): 代理扫描复杂的代码仓库,发现隐藏的缺陷。成功指标为“召回率”——找到“真实”问题的能力,以及模拟的悬赏奖励。

  • 2. 修补模式(工程师): 一旦发现漏洞,代理必须重写代码。基准测试使用自动化测试套件,确保修补方案修复漏洞且不破坏合约的原有功能。

  • 3. 利用模式(对手): 在安全隔离的 Anvil 沙箱 中,代理尝试执行端到端攻击以抽取资金。这衡量代理的攻击推理能力及其将多个小缺陷“串联”成灾难性漏洞的能力。

资料来源:openai

数据集内幕:真实世界的风险

EVMbench 并非基于理论难题,而是建立在经过筛选的 120 个高严重性漏洞库上,这些漏洞来自 40 次专业审计。大量数据来自真实的审计竞赛(如 Code4rena)和 Paradigm 的 Tempo 区块链内部安全流程。

通过专注于“支付导向”合约,确保 AI 模型经过针对处理数十亿美元流动资金的代码的实战测试。

基准测试结果:GPT-5.3-Codex 的崛起

OpenAI 内部测试显示,AI 能力的提升速度令人震惊。仅几个月时间,顶级模型已从难以应对基本逻辑,到执行复杂的多步利用。

“利用差距”:有趣的是,代理在 利用(72.2%)方面的表现明显优于 修补检测。OpenAI 研究人员指出,代理在面对单一明确目标(如“抽取资金”)时表现出色,但在进行全面审计的“长尾”任务中需要更细致的推理能力。

资料来源:OpenAI

重要意义:安全“左移”的转变

对于整个加密生态系统,EVMbench 不仅是一个评分卡,更是推动 “安全左移” 的催化剂——将顶级审计直接融入编码流程,而非等待部署后再审。

  • 民主化安全: 负担不起 20 万美元手动审计的小型 DeFi 团队,可以使用 EVMbench 认证的 AI 代理进行持续高精度的代码审查。

  • 机构准备: 随着高盛、富兰克林邓普顿等传统金融巨头迁移到链上,他们需要由标准化基准提供的“黄金标准”AI治理。

  • 双重用途挑战: OpenAI 和 Paradigm 通过开源基准,为“好人”提供工具,衡量并超越“坏人”,同时维护“可信访问”框架,监控新兴风险。

展望未来

虽然 EVMbench 是一项革命性进步,但目前仅限于确定性沙箱环境。未来版本预计将加入 多链依赖MEV(最大可提取价值) 考量,更好模拟以太坊主网的“黑暗森林”。

随着 AI 代理从“编写代码”转向“保障经济”,EVMbench 将成为衡量下一代信任无关金融的权威标尺。


免责声明: 本文所表达的观点和分析仅供参考,不构成任何财务建议。文中讨论的技术模式和指标受市场波动影响,可能无法实现预期效果。投资者应保持谨慎,进行独立研究,并根据自身风险承受能力做出决策。


关于作者: 尼莱什·亨巴德 是 Coinsprobe 的创始人兼主笔,拥有超过 5 年的加密货币和区块链行业经验。自 2023 年推出 Coinsprobe 以来,他通过深入的市场分析、链上数据和技术研究,提供每日研究洞察。

查看原文
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)