OpenAI lança EVMbench para testar agentes de IA na segurança de contratos inteligentes dias após o código assistido pelo Claude Opus 4.6 ter causado uma exploração DeFi de $1,78 milhões.
Contratos inteligentes protegem mais de $100 bilhões em ativos cripto de código aberto. Esse número por si só deve explicar por que o mais recente movimento da OpenAI está atraindo atenção séria. A empresa, trabalhando ao lado da firma de investimentos em criptomoedas Paradigm, lançou o EVMbench, uma referência projetada para testar quão bem agentes de IA detectam, exploram e corrigem vulnerabilidades de alta gravidade em contratos inteligentes.
A referência é baseada em 120 vulnerabilidades selecionadas de 40 auditorias. A maioria delas veio de competições de auditoria de código aberto. O que a diferencia é o escopo. O EVMbench testa três modos de capacidade distintos: detectar, corrigir e explorar, cada um avaliado separadamente e classificado através de uma ferramenta baseada em Rust que reproduz transações em um ambiente sandboxed local. Sem redes ao vivo envolvidas.
No modo de exploração, GPT-5.3-Codex via Codex CLI obteve 72,2%. Seis meses atrás, GPT-5 tinha 31,9% na mesma métrica. Essa diferença não é pequena. A OpenAI confirmou os números em seu anúncio oficial no X, apresentando o EVMbench como uma ferramenta de medição e um chamado à ação para a comunidade de segurança.
As pontuações de detectar e corrigir permanecem mais baixas. Agentes no modo de detecção às vezes identificam uma única vulnerabilidade e param. Eles não esgotam toda a base de código. No modo de correção, o desafio é preservar toda a funcionalidade do contrato enquanto se remove a falha. Esse equilíbrio ainda está dando dificuldades aos modelos.
Leitura obrigatória: Hack de Segurança na Trust Wallet: Como Proteger Seus Ativos
O contexto de tudo isso importa. O pesquisador de segurança evilcos alertou no X que o protocolo DeFi de empréstimos Moonwell sofreu uma perda de aproximadamente $1,78 milhão. A causa foi um erro na configuração do Oracle. Uma fórmula de feed de preço foi escrita incorretamente, definindo o valor do cbETH em $1,12 ao invés de aproximadamente $2.200.
Esse é um erro de baixo nível. Um tipo de auditoria cuidadosa deveria detectar. A solicitação de pull no GitHub para a proposta MIP-X43 mostrou commits co-autografados por Claude Opus 4.6. O modelo mais recente e mais capaz da Anthropic na época.
O auditor de contratos inteligentes pashov publicou no X chamando isso de possivelmente o primeiro exploit ligado ao Solidity codificado com vibe. Ele destacou que revisores humanos ainda têm a responsabilidade final. Um auditor de segurança aprova antes de algo ir para a cadeia. Mas algo nessa cadeia quebrou.
A referência inclui cenários de vulnerabilidade do auditor de segurança da blockchain Tempo, uma blockchain L1 feita sob medida para pagamentos de stablecoins de alta taxa de transferência. Essa extensão leva o EVMbench para códigos de contratos voltados a pagamentos, uma área onde a OpenAI espera que a atividade de stablecoins com agentes cresça.
Cada tarefa de exploração roda em uma instância isolada do Anvil. As transações são reproduzidas de forma determinística. A configuração de avaliação restringe métodos RPC inseguros e foi testada internamente para impedir que agentes manipulem os resultados. As vulnerabilidades usadas são históricas e documentadas publicamente.
A OpenAI também está comprometendo $10 milhões em créditos de API para acelerar a defesa cibernética, com prioridade para softwares de código aberto e infraestrutura crítica. Seu agente de pesquisa de segurança, Aardvark, está expandindo para uma fase beta privada. A varredura gratuita de bases de código para projetos de código aberto amplamente utilizados faz parte dessa iniciativa.
A postagem de pashov no X levantou o que muitos no espaço DeFi estavam evitando. Quando a IA escreve código Solidity de produção e humanos aprovam rapidamente, a camada de revisão fica fina. O incidente Moonwell mostrou exatamente o quão fina ela pode ficar.
A OpenAI reconheceu que a cibersegurança é inerentemente de uso dual. Sua resposta é baseada em evidências. Treinamento de segurança, monitoramento automatizado e controles de acesso para capacidades avançadas fazem parte disso. Mas uma pontuação de exploração de 72,2% em uma referência pública é um número que não fica quieto.
O conjunto completo de tarefas, ferramentas e código de avaliação do EVMbench agora é público. O objetivo é permitir que pesquisadores acompanhem as capacidades cibernéticas de IA à medida que crescem, e construam defesas na mesma velocidade. Se essa velocidade é rápida o suficiente, essa é a questão que ninguém respondeu ainda.