OpenAI e Paradigm criaram o EVMbench a partir de 120 vulnerabilidades reais de auditoria.
Os testes de benchmark avaliam a IA nos modos de deteção, correção e exploração usando ambientes sandboxed de EVM.
O GPT-5.3-Codex obteve uma pontuação de 72,2% no modo de exploração, superando os resultados anteriores do GPT-5.
A OpenAI, em colaboração com a Paradigm, revelou um novo benchmark para testar o desempenho da IA na segurança de contratos inteligentes na Ethereum. O lançamento, anunciado esta semana, apresentou o EVMbench como uma forma de medir como os agentes de IA detectam, corrigem e exploram falhas nos contratos. O esforço visa riscos crescentes, uma vez que contratos inteligentes asseguram mais de 100 mil milhões de dólares em ativos cripto em redes EVM.
Segundo a OpenAI, o EVMbench baseia-se em 120 vulnerabilidades de alta gravidade identificadas em 40 auditorias profissionais de contratos inteligentes. Notavelmente, muitas dessas questões tiveram origem em competições abertas de auditoria, incluindo a Code4rena. O benchmark foca em bugs reais, em vez de exemplos sintéticos.
Além disso, a OpenAI afirmou que o conjunto de dados inclui cenários ligados ao trabalho de segurança na cadeia Tempo. A Tempo funciona como uma rede Layer-1 focada em pagamentos, construída para transferências de stablecoins. Por isso, esses casos introduzem riscos de lógica de pagamento no ambiente do benchmark.
Para suportar testes realistas, os engenheiros reutilizaram scripts de provas de conceito de exploração sempre que disponíveis. No entanto, construíram manualmente componentes ausentes quando a documentação era incompleta. A OpenAI afirmou que preservou a explorabilidade, garantindo que as correções pudessem ser compiladas corretamente.
O EVMbench avalia os agentes nos modos de deteção, correção e exploração. No modo de deteção, os agentes escaneiam repositórios e recebem pontuações com base na recuperação de vulnerabilidades confirmadas. No modo de correção, os agentes devem corrigir falhas preservando o comportamento original do contrato.
Já o modo de exploração simula ataques completos de drenagem de fundos dentro de uma blockchain sandbox. A OpenAI afirmou que os avaliadores confirmam os resultados através de replay de transações e verificações do estado na cadeia. Para garantir consistência, a empresa criou uma ferramenta em Rust para implantações determinísticas.
Os testes de exploração são realizados num ambiente local Anvil, não em redes ao vivo. A OpenAI destacou que todas as vulnerabilidades são históricas e de conhecimento público. Além disso, a ferramenta restringe chamadas RPC inseguras para reduzir abusos.
Nos resultados reportados, o GPT-5.3-Codex obteve uma pontuação de 72,2% no modo de exploração. Em comparação, o GPT-5 atingiu 31,9%, apesar de ter sido lançado meses antes. No entanto, a OpenAI afirmou que a cobertura de deteção e correção ainda está incompleta.
Juntamente com o EVMbench, a OpenAI confirmou uma contratação importante. Peter Steinberger, fundador da OpenClaw, juntou-se à empresa para trabalhar no desenvolvimento de agentes. Sam Altman confirmou a mudança na X, destacando que Steinberger liderará projetos de agentes pessoais de próxima geração.
Related Articles
Analista sob a tutela de Tom Lee: ETH caiu para um mínimo de 1367 dólares, mas o retorno implícito nos próximos 12 meses é de 81%
A equipa da plataforma Ethereum foi oficialmente fundada, com o objetivo de fortalecer a colaboração entre L1 e L2
OpenAI lança 「EVMbench」: para testar se a IA consegue 「garantir a segurança dos contratos inteligentes」
Ethereum irá integrar o ERC-5564 na Push pela privacidade - U.Today