A OpenAI, criadora do ChatGPT, e a firma de investimento focada em criptomoedas Paradigm apresentaram o EVMbench, uma ferramenta para ajudar a melhorar a segurança dos contratos inteligentes na Ethereum Virtual Machine. O EVMbench foi concebido para avaliar a capacidade de agentes de IA em detectar, corrigir e explorar vulnerabilidades de alta gravidade em contratos inteligentes da Ethereum Virtual Machine (EVM). Os contratos inteligentes são o coração da rede Ethereum, contendo o código que alimenta desde protocolos de finanças descentralizadas até lançamentos de tokens. O número semanal de contratos inteligentes implantados na Ethereum atingiu um máximo histórico de 1,7 milhões em novembro de 2025, com 669.500 implantados apenas na semana passada, segundo a Token Terminal.
O EVMbench baseia-se em 120 vulnerabilidades selecionadas de 40 auditorias, a maioria provenientes de competições abertas de auditoria, como a Code4rena, segundo um post no blog da OpenAI. Inclui também cenários do processo de auditoria de segurança do Tempo (Tempo), uma blockchain layer-1 criada pela Stripe, focada em pagamentos de stablecoins de alta vazão e baixo custo. A gigante de pagamentos Stripe lançou a testnet pública do Tempo em dezembro, afirmando na altura que ela foi construída com contribuições de Visa, Shopify e OpenAI, entre outros. O objetivo é fundamentar os testes em código do mundo real, economicamente relevante — especialmente à medida que os pagamentos com stablecoins impulsionados por IA se expandem, acrescentou a empresa.
Apresentando o EVMbench — um novo benchmark que mede quão bem agentes de IA podem detectar, explorar e corrigir vulnerabilidades de contratos inteligentes de alta gravidade. https://t.co/op5zufgAGH
— OpenAI (@OpenAI) 18 de fevereiro de 2026
O EVMbench destina-se a avaliar modelos de IA em três modos: Detectar, corrigir e explorar. No modo “detectar”, os agentes auditam repositórios e são avaliados quanto à sua capacidade de identificar vulnerabilidades reais. No modo “corrigir”, os agentes devem eliminar vulnerabilidades sem comprometer a funcionalidade pretendida. Finalmente, na fase “explorar”, os agentes tentam ataques de drenagem de fundos de ponta a ponta num ambiente de blockchain isolado, com avaliação realizada por replay determinístico de transações. No modo de exploração, o GPT-5.3-Codex, executado via CLI do Codex da OpenAI, obteve uma pontuação de 72,2%, em comparação com 31,9% do GPT-5, lançado seis meses antes. O desempenho foi mais fraco nas tarefas de deteção e correção, onde os agentes às vezes não auditavam de forma exaustiva ou tinham dificuldades em preservar toda a funcionalidade do contrato. Os investigadores da OpenAI alertaram que o EVMbench não captura totalmente a complexidade de segurança do mundo real. Ainda assim, acrescentaram que medir o desempenho de IA em ambientes economicamente relevantes é fundamental à medida que os modelos se tornam ferramentas poderosas tanto para atacantes quanto para defensores. Sam Altman, da OpenAI, e Vitalik Buterin, cofundador da Ethereum, já tiveram divergências sobre o ritmo do desenvolvimento de IA. Em janeiro de 2025, Altman afirmou que sua empresa estava “confiante de que sabemos como construir uma IA Geral (AGI) como a entendemos tradicionalmente”. Mas Buterin defendeu que os sistemas de IA deveriam incluir uma capacidade de “pausa suave” que pudesse restringir temporariamente operações de IA em escala industrial, caso surgissem sinais de alerta.
Related Articles
Project Hunt:Plataforma de recompensas de fidelidade Web3 RoveWorld para os projetos mais deixados de seguir pelas principais figuras nos últimos 7 dias
Vitalik lamenta que o mercado de previsões esteja desviado, tornando-se uma ferramenta de apostas de curto prazo, e apela à reconstrução dos valores sociais a longo prazo
BitMine investe mais 70 milhões de dólares na compra de 35.000 ETH! A sua posição ultrapassa 4,4 milhões de ETH, com uma perda não realizada de 8 bilhões de dólares, e continuam a aumentar a posição sem hesitar
Fundação Ethereum publica atualização de prioridades do protocolo para 2026: a atualização Glamsterdam está prevista para o primeiro semestre