OpenAI 推出加密代币和智能合约安全性基准测试体系

CoinsProbe

2026-02-28 20:36:14

ETH2.46%

关键要点

OpenAI 已推出 EVMbench，这是与 Paradigm 共同开发的新的基准测试系统，用于测试先进的 AI 模型如何检测、修补和利用以太坊智能合约中的漏洞。
早期结果显示存在“利用差距”，目前顶级模型在执行攻击方面优于全面审计或修补缺陷——这既凸显了 AI 的快速进步，也带来了新兴的风险。
EVMbench 可能重新定义加密安全标准，使 DeFi 团队能够持续进行 AI 驱动的审计，并在数十亿美元资产链上转移时提供机构级保障。

在人工智能与区块链技术的重大融合中，OpenAI 正式推出了 EVMbench。该系统由与加密投资巨头 Paradigm 战略合作开发，旨在严格测试 AI 代理在以太坊虚拟机（EVM）生态系统中识别、利用和修复漏洞的能力。

目前，智能合约保障的开源加密资产超过 1,000 亿美元，风险前所未有。EVMbench 代表了一种积极的转变，利用“前沿模型”来保护去中心化金融（DeFi）免受日益复杂的网络威胁。

资料来源：openai

EVMbench 的三大支柱

EVMbench 超越静态代码分析，通过评估 AI 代理在三种高风险操作模式下的表现。这一“检测-修补-利用”循环模仿了顶级安全研究员的实际工作流程。

1. 检测模式（审计员）： 代理扫描复杂的代码仓库，发现隐藏的缺陷。成功指标为“召回率”——找到“真实”问题的能力，以及模拟的悬赏奖励。
2. 修补模式（工程师）： 一旦发现漏洞，代理必须重写代码。基准测试使用自动化测试套件，确保修补方案修复漏洞且不破坏合约的原有功能。
3. 利用模式（对手）： 在安全隔离的 Anvil 沙箱 中，代理尝试执行端到端攻击以抽取资金。这衡量代理的攻击推理能力及其将多个小缺陷“串联”成灾难性漏洞的能力。

资料来源：openai

数据集内幕：真实世界的风险

EVMbench 并非基于理论难题，而是建立在经过筛选的 120 个高严重性漏洞库上，这些漏洞来自 40 次专业审计。大量数据来自真实的审计竞赛（如 Code4rena）和 Paradigm 的 Tempo 区块链内部安全流程。

通过专注于“支付导向”合约，确保 AI 模型经过针对处理数十亿美元流动资金的代码的实战测试。

基准测试结果：GPT-5.3-Codex 的崛起

OpenAI 内部测试显示，AI 能力的提升速度令人震惊。仅几个月时间，顶级模型已从难以应对基本逻辑，到执行复杂的多步利用。

“利用差距”：有趣的是，代理在利用（72.2%）方面的表现明显优于修补或检测。OpenAI 研究人员指出，代理在面对单一明确目标（如“抽取资金”）时表现出色，但在进行全面审计的“长尾”任务中需要更细致的推理能力。

资料来源：OpenAI

重要意义：安全“左移”的转变

对于整个加密生态系统，EVMbench 不仅是一个评分卡，更是推动 “安全左移” 的催化剂——将顶级审计直接融入编码流程，而非等待部署后再审。

民主化安全： 负担不起 20 万美元手动审计的小型 DeFi 团队，可以使用 EVMbench 认证的 AI 代理进行持续高精度的代码审查。
机构准备： 随着高盛、富兰克林邓普顿等传统金融巨头迁移到链上，他们需要由标准化基准提供的“黄金标准”AI治理。
双重用途挑战： OpenAI 和 Paradigm 通过开源基准，为“好人”提供工具，衡量并超越“坏人”，同时维护“可信访问”框架，监控新兴风险。

展望未来

虽然 EVMbench 是一项革命性进步，但目前仅限于确定性沙箱环境。未来版本预计将加入 多链依赖 和 MEV（最大可提取价值） 考量，更好模拟以太坊主网的“黑暗森林”。

随着 AI 代理从“编写代码”转向“保障经济”，EVMbench 将成为衡量下一代信任无关金融的权威标尺。

免责声明： 本文所表达的观点和分析仅供参考，不构成任何财务建议。文中讨论的技术模式和指标受市场波动影响，可能无法实现预期效果。投资者应保持谨慎，进行独立研究，并根据自身风险承受能力做出决策。

关于作者： 尼莱什·亨巴德 是 Coinsprobe 的创始人兼主笔，拥有超过 5 年的加密货币和区块链行业经验。自 2023 年推出 Coinsprobe 以来，他通过深入的市场分析、链上数据和技术研究，提供每日研究洞察。

查看原文

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

0/400

暂无评论