Principais Conclusões
A OpenAI lançou o EVMbench, um novo sistema de benchmarking desenvolvido em parceria com a Paradigm para testar como modelos avançados de IA detectam, corrigem e exploram vulnerabilidades em contratos inteligentes Ethereum.
Os resultados iniciais revelam uma “Lacuna de Exploração”, com os principais modelos atualmente melhores em executar ataques do que em auditar ou corrigir de forma abrangente as falhas — destacando tanto o rápido progresso da IA quanto os riscos emergentes.
O EVMbench pode redefinir os padrões de segurança na criptomoeda, permitindo auditorias contínuas alimentadas por IA para equipas DeFi e fornecendo garantias de nível institucional à medida que bilhões em ativos se movem na cadeia.
Num importante momento de convergência entre Inteligência Artificial e tecnologia blockchain, OpenAI lançou oficialmente o EVMbench. Desenvolvido em parceria estratégica com a gigante de investimentos em criptomoedas Paradigm, este sistema de benchmarking foi criado para testar rigorosamente como agentes de IA identificam, exploram e remediem vulnerabilidades no ecossistema Ethereum Virtual Machine (EVM).
Com mais de 100 bilhões de dólares em ativos de criptomoeda de código aberto atualmente protegidos por contratos inteligentes, as apostas nunca foram tão altas. O EVMbench representa uma mudança proativa na utilização de “modelos de fronteira” para defender as finanças descentralizadas (DeFi) de ameaças cibernéticas cada vez mais sofisticadas.
Fonte: openai
O EVMbench vai além da análise estática de código, avaliando agentes de IA em três modos operacionais de alto risco. Este ciclo “Detectar-Corrigir-Explorar” imita o fluxo de trabalho real de um pesquisador de segurança de alto nível.
1. Modo Detectar (O Auditor): Os agentes escaneiam repositórios complexos de código para descobrir falhas ocultas. O sucesso é medido pela “Recall” — a capacidade de encontrar problemas “de verdade” — e recompensas simuladas de bug bounty.
2. Modo Corrigir (O Engenheiro): Uma vez encontrada uma falha, o agente deve reescrever o código. O benchmark usa suítes de testes automatizados para garantir que a correção resolva a vulnerabilidade sem comprometer a funcionalidade original do contrato.
3. Modo Explorar (O Adversário): Em uma sandbox segura e isolada, o Anvil, os agentes tentam executar ataques de ponta a ponta para esvaziar fundos. Isso mede o raciocínio ofensivo do agente e sua capacidade de “encadear” pequenas falhas em uma brecha catastrófica.
Fonte: openai
O EVMbench não se baseia em enigmas teóricos. Ele é construído a partir de uma biblioteca selecionada de 120 vulnerabilidades de alta gravidade coletadas de 40 auditorias profissionais. Grande parte dos dados vem de competições de auditoria do mundo real (como o Code4rena) e de processos internos de segurança da blockchain Tempo da Paradigm.
Ao focar em contratos “orientados a pagamentos”, o benchmark garante que os modelos de IA sejam testados contra os tipos de código que lidam com bilhões em capital líquido.
Testes internos da OpenAI revelaram uma aceleração surpreendente na capacidade da IA. Em poucos meses, modelos de alto nível evoluíram de dificuldades com lógica básica para execução de exploits complexos de múltiplas etapas.
A “Lacuna de Exploração”: Curiosamente, os agentes atualmente apresentam desempenho significativamente melhor na exploração (72,2%) do que na correção ou detecção. Pesquisadores da OpenAI observaram que os agentes se destacam quando recebem um objetivo explícito — como “esvaziar os fundos” — mas precisam de raciocínio mais refinado para lidar com a tarefa de auditoria exaustiva, de “cauda longa”.
Fonte: OpenAI
Para o ecossistema cripto mais amplo, o EVMbench é mais do que uma simples pontuação; é um acelerador para o desenvolvimento de “Segurança à Esquerda” — integrando auditorias de alto nível diretamente no processo de codificação, ao invés de esperar por uma auditoria pós-implantação.
Segurança Democratizada: Pequenas equipas DeFi que não podem pagar uma auditoria manual de 200 mil dólares podem usar agentes de IA certificados pelo EVMbench para revisões contínuas de código de alta fidelidade.
Preparação Institucional: À medida que gigantes tradicionais como Goldman Sachs e Franklin Templeton migram para a cadeia, eles exigem o “Padrão Ouro” de governança de IA que um benchmark padronizado pode fornecer.
O Desafio de Uso Dual: Ao open-sourçar o benchmark, a OpenAI e a Paradigm estão fornecendo às “forças do bem” as ferramentas para medir e superar as “forças do mal”, mantendo uma estrutura de “Acesso Confiável para Cibersegurança” para monitorar riscos emergentes.
Embora o EVMbench seja um avanço revolucionário, atualmente está limitado a ambientes determinísticos e sandboxed. Futuras versões devem incorporar dependências multi-chain e considerações de MEV (Valor Máximo Extraível) para simular melhor o “Dark Forest” da rede principal Ethereum ao vivo.
À medida que agentes de IA passam de “escrever código” para “proteger economias”, o EVMbench se firma como o padrão definitivo para a próxima geração de finanças sem confiança.
Aviso Legal: As opiniões e análises apresentadas neste artigo são apenas para fins informativos e refletem a perspectiva do autor, não constituindo aconselhamento financeiro. Os padrões técnicos e indicadores discutidos estão sujeitos à volatilidade do mercado e podem ou não gerar os resultados esperados. Os investidores devem exercer cautela, realizar pesquisas independentes e tomar decisões alinhadas com sua tolerância ao risco.
Sobre o Autor: Nilesh Hembade é fundador e autor principal do Coinsprobe, com mais de 5 anos de experiência na indústria de criptomoedas e blockchain. Desde o lançamento do Coinsprobe em 2023, ele tem fornecido insights diários baseados em pesquisa, por meio de análises de mercado aprofundadas, dados on-chain e pesquisa técnica.