OpenAI e Paradigm criaram o EVMbench a partir de 120 vulnerabilidades reais de auditoria.
Os testes de benchmark avaliam a IA nos modos de deteção, correção e exploração usando ambientes sandboxed de EVM.
O GPT-5.3-Codex obteve uma pontuação de 72,2% no modo de exploração, superando os resultados anteriores do GPT-5.

A OpenAI, em colaboração com a Paradigm, revelou um novo benchmark para testar o desempenho da IA na segurança de contratos inteligentes na Ethereum. O lançamento, anunciado esta semana, apresentou o EVMbench como uma forma de medir como os agentes de IA detectam, corrigem e exploram falhas nos contratos. O esforço visa riscos crescentes, uma vez que contratos inteligentes asseguram mais de 100 mil milhões de dólares em ativos cripto em redes EVM.

Benchmark Construído a Partir de Falhas Reais de Auditoria

Segundo a OpenAI, o EVMbench baseia-se em 120 vulnerabilidades de alta gravidade identificadas em 40 auditorias profissionais de contratos inteligentes. Notavelmente, muitas dessas questões tiveram origem em competições abertas de auditoria, incluindo a Code4rena. O benchmark foca em bugs reais, em vez de exemplos sintéticos.

Além disso, a OpenAI afirmou que o conjunto de dados inclui cenários ligados ao trabalho de segurança na cadeia Tempo. A Tempo funciona como uma rede Layer-1 focada em pagamentos, construída para transferências de stablecoins. Por isso, esses casos introduzem riscos de lógica de pagamento no ambiente do benchmark.

Para suportar testes realistas, os engenheiros reutilizaram scripts de provas de conceito de exploração sempre que disponíveis. No entanto, construíram manualmente componentes ausentes quando a documentação era incompleta. A OpenAI afirmou que preservou a explorabilidade, garantindo que as correções pudessem ser compiladas corretamente.

Três Modos de Teste Avaliam Agentes de IA

O EVMbench avalia os agentes nos modos de deteção, correção e exploração. No modo de deteção, os agentes escaneiam repositórios e recebem pontuações com base na recuperação de vulnerabilidades confirmadas. No modo de correção, os agentes devem corrigir falhas preservando o comportamento original do contrato.

Já o modo de exploração simula ataques completos de drenagem de fundos dentro de uma blockchain sandbox. A OpenAI afirmou que os avaliadores confirmam os resultados através de replay de transações e verificações do estado na cadeia. Para garantir consistência, a empresa criou uma ferramenta em Rust para implantações determinísticas.

Os testes de exploração são realizados num ambiente local Anvil, não em redes ao vivo. A OpenAI destacou que todas as vulnerabilidades são históricas e de conhecimento público. Além disso, a ferramenta restringe chamadas RPC inseguras para reduzir abusos.

Resultados e Expansão da Equipa

Nos resultados reportados, o GPT-5.3-Codex obteve uma pontuação de 72,2% no modo de exploração. Em comparação, o GPT-5 atingiu 31,9%, apesar de ter sido lançado meses antes. No entanto, a OpenAI afirmou que a cobertura de deteção e correção ainda está incompleta.

Juntamente com o EVMbench, a OpenAI confirmou uma contratação importante. Peter Steinberger, fundador da OpenClaw, juntou-se à empresa para trabalhar no desenvolvimento de agentes. Sam Altman confirmou a mudança na X, destacando que Steinberger liderará projetos de agentes pessoais de próxima geração.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.

Comentar

0/400

Nenhum comentário