OpenAI Remove EVMbench Após o Desastre do Código Claude Vibe

LiveBTCNews
DEFI0,77%
WELL-2,97%
L10,21%
CODEX3,93%

OpenAI lança EVMbench para testar agentes de IA na segurança de contratos inteligentes dias após o código assistido pelo Claude Opus 4.6 ter causado uma exploração DeFi de $1,78 milhões.

Contratos inteligentes protegem mais de $100 bilhões em ativos cripto de código aberto. Esse número por si só deve explicar por que o mais recente movimento da OpenAI está atraindo atenção séria. A empresa, trabalhando ao lado da firma de investimentos em criptomoedas Paradigm, lançou o EVMbench, uma referência projetada para testar quão bem agentes de IA detectam, exploram e corrigem vulnerabilidades de alta gravidade em contratos inteligentes.

A referência é baseada em 120 vulnerabilidades selecionadas de 40 auditorias. A maioria delas veio de competições de auditoria de código aberto. O que a diferencia é o escopo. O EVMbench testa três modos de capacidade distintos: detectar, corrigir e explorar, cada um avaliado separadamente e classificado através de uma ferramenta baseada em Rust que reproduz transações em um ambiente sandboxed local. Sem redes ao vivo envolvidas.

O Número que Deve Preocupar Todos

No modo de exploração, GPT-5.3-Codex via Codex CLI obteve 72,2%. Seis meses atrás, GPT-5 tinha 31,9% na mesma métrica. Essa diferença não é pequena. A OpenAI confirmou os números em seu anúncio oficial no X, apresentando o EVMbench como uma ferramenta de medição e um chamado à ação para a comunidade de segurança.

As pontuações de detectar e corrigir permanecem mais baixas. Agentes no modo de detecção às vezes identificam uma única vulnerabilidade e param. Eles não esgotam toda a base de código. No modo de correção, o desafio é preservar toda a funcionalidade do contrato enquanto se remove a falha. Esse equilíbrio ainda está dando dificuldades aos modelos.

Leitura obrigatória: Hack de Segurança na Trust Wallet: Como Proteger Seus Ativos

Um Erro de Oracle de $1,78 Milhões que Ninguém Detectou

O contexto de tudo isso importa. O pesquisador de segurança evilcos alertou no X que o protocolo DeFi de empréstimos Moonwell sofreu uma perda de aproximadamente $1,78 milhão. A causa foi um erro na configuração do Oracle. Uma fórmula de feed de preço foi escrita incorretamente, definindo o valor do cbETH em $1,12 ao invés de aproximadamente $2.200.

Esse é um erro de baixo nível. Um tipo de auditoria cuidadosa deveria detectar. A solicitação de pull no GitHub para a proposta MIP-X43 mostrou commits co-autografados por Claude Opus 4.6. O modelo mais recente e mais capaz da Anthropic na época.

O auditor de contratos inteligentes pashov publicou no X chamando isso de possivelmente o primeiro exploit ligado ao Solidity codificado com vibe. Ele destacou que revisores humanos ainda têm a responsabilidade final. Um auditor de segurança aprova antes de algo ir para a cadeia. Mas algo nessa cadeia quebrou.

O Que o EVMbench Realmente Foi Criado Para Fazer

A referência inclui cenários de vulnerabilidade do auditor de segurança da blockchain Tempo, uma blockchain L1 feita sob medida para pagamentos de stablecoins de alta taxa de transferência. Essa extensão leva o EVMbench para códigos de contratos voltados a pagamentos, uma área onde a OpenAI espera que a atividade de stablecoins com agentes cresça.

Cada tarefa de exploração roda em uma instância isolada do Anvil. As transações são reproduzidas de forma determinística. A configuração de avaliação restringe métodos RPC inseguros e foi testada internamente para impedir que agentes manipulem os resultados. As vulnerabilidades usadas são históricas e documentadas publicamente.

A OpenAI também está comprometendo $10 milhões em créditos de API para acelerar a defesa cibernética, com prioridade para softwares de código aberto e infraestrutura crítica. Seu agente de pesquisa de segurança, Aardvark, está expandindo para uma fase beta privada. A varredura gratuita de bases de código para projetos de código aberto amplamente utilizados faz parte dessa iniciativa.

A Questão do Vibe-Coding Com Reais Riscos

A postagem de pashov no X levantou o que muitos no espaço DeFi estavam evitando. Quando a IA escreve código Solidity de produção e humanos aprovam rapidamente, a camada de revisão fica fina. O incidente Moonwell mostrou exatamente o quão fina ela pode ficar.

A OpenAI reconheceu que a cibersegurança é inerentemente de uso dual. Sua resposta é baseada em evidências. Treinamento de segurança, monitoramento automatizado e controles de acesso para capacidades avançadas fazem parte disso. Mas uma pontuação de exploração de 72,2% em uma referência pública é um número que não fica quieto.

O conjunto completo de tarefas, ferramentas e código de avaliação do EVMbench agora é público. O objetivo é permitir que pesquisadores acompanhem as capacidades cibernéticas de IA à medida que crescem, e construam defesas na mesma velocidade. Se essa velocidade é rápida o suficiente, essa é a questão que ninguém respondeu ainda.

Ver original
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)