OpenAI, le créateur de ChatGPT, et la société d’investissement axée sur la cryptomonnaie Paradigm ont lancé EVMbench, un outil destiné à améliorer la sécurité des contrats intelligents sur Ethereum. EVMbench est conçu pour évaluer la capacité des agents IA à détecter, corriger et exploiter des vulnérabilités de haute gravité dans les contrats intelligents de la Machine Virtuelle Ethereum (EVM). Les contrats intelligents sont le cœur du réseau Ethereum, contenant le code qui alimente tout, des protocoles de finance décentralisée aux lancements de tokens. Selon Token Terminal, le nombre hebdomadaire de contrats intelligents déployés sur Ethereum a atteint un sommet historique de 1,7 million en novembre 2025, avec 669 500 déployés la semaine dernière seulement.
EVMbench s’appuie sur 120 vulnérabilités sélectionnées issues de 40 audits, principalement provenant de concours d’audit ouverts tels que Code4rena, selon un article de blog d’OpenAI. Il inclut également des scénarios issus du processus d’audit de sécurité pour Tempo, la blockchain de couche 1 conçue par Stripe, axée sur des paiements en stablecoin à haut débit et à faible coût. Le géant des paiements Stripe a lancé le testnet public de Tempo en décembre, déclarant à l’époque qu’il était construit avec la contribution de Visa, Shopify et OpenAI, entre autres. L’objectif est de baser les tests sur un code économiquement pertinent et réel, notamment à mesure que les paiements en stablecoin pilotés par IA se développent, a ajouté la société.
> Présentation d’EVMbench — un nouveau benchmark qui mesure la capacité des agents IA à détecter, exploiter et corriger des vulnérabilités critiques de contrats intelligents. https://t.co/op5zufgAGH > > — OpenAI (@OpenAI) 18 février 2026
EVMbench vise à évaluer les modèles IA dans trois modes : Détection, correction et exploitation. En mode « détection », les agents auditent des dépôts et sont évalués sur leur capacité à repérer toutes les vulnérabilités réelles. En mode « correction », ils doivent éliminer ces vulnérabilités sans compromettre la fonctionnalité prévue. Enfin, en mode « exploitation », les agents tentent des attaques complètes de drain de fonds dans un environnement blockchain sandboxé, avec une notation basée sur la relecture déterministe des transactions. En mode exploitation, GPT-5.3-Codex, utilisant l’interface CLI de Codex d’OpenAI, a obtenu un score de 72,2 %, contre 31,9 % pour GPT-5, lancé six mois plus tôt. La performance était moins bonne dans les tâches de détection et de correction, où les agents échouaient parfois à auditer de manière exhaustive ou à préserver la pleine fonctionnalité du contrat. Les chercheurs d’OpenAI, créateurs de ChatGPT, ont averti que EVMbench ne reflète pas entièrement la complexité de la sécurité dans le monde réel. Cependant, ils ont souligné que mesurer la performance de l’IA dans des environnements économiquement pertinents est crucial, car ces modèles deviennent des outils puissants tant pour les attaquants que pour les défenseurs. Sam Altman d’OpenAI et Vitalik Buterin, co-fondateur d’Ethereum, se sont déjà opposés sur le rythme du développement de l’IA. En janvier 2025, Altman a déclaré que sa société était « confiante de savoir comment construire une IA générale comme nous l’avons toujours comprise ». Mais Buterin a plaidé pour que les systèmes d’IA incluent une capacité de « pause douce » permettant de suspendre temporairement les opérations d’IA à l’échelle industrielle si des signaux d’alerte apparaissent.