Le chiffre que chaque grand laboratoire d’IA utilisait pour revendiquer la suprématie en codage a été déclaré sans valeur. OpenAI a publié cette semaine un article annonçant que SWE-bench Verified, le benchmark de référence pour mesurer les capacités de codage de l’IA, est tellement entaché de tests défectueux et de fuite de données d’entraînement qu’il ne fournit plus aucune information utile sur la capacité réelle d’un modèle à écrire un logiciel. Le benchmark fonctionne ainsi : donner à une IA un problème réel tiré d’un projet Python open source populaire sur GitHub, lui demander de corriger le bug sans voir les tests, et vérifier si sa correction fait passer les tests défaillants sans tout casser.
OpenAI a créé SWE-bench Verified en août 2024 comme une version plus propre du benchmark original de 2023, en recrutant 93 ingénieurs logiciels pour filtrer les tâches impossibles ou mal conçues. Ce nettoyage a été suffisamment efficace pour que chaque grand laboratoire commence à citer ses scores comme preuve de progrès. Lors du lancement de Claude Opus 4 par Anthropic en mai 2025, Decrypt a rapporté que le modèle avait obtenu 72,5 % sur SWE-bench Verified, surpassant GPT-4.1 à 54,6 % et Gemini 2.5 Pro à 63,2 %. C’était le benchmark de codage qui comptait. Depuis, chaque laboratoire d’IA, des États-Unis à la Chine, a montré ses performances sur SWE pour revendiquer la couronne du meilleur modèle de codage.
Image : Minimax
Aujourd’hui, OpenAI affirme que cette course n’était en partie qu’un mirage. Selon le rapport, l’équipe a audité 138 tâches sur lesquelles GPT-5.2 échouait systématiquement lors de 64 essais indépendants, et a fait examiner chaque tâche par six ingénieurs. Elle a finalement conclu que 59,4 % de ces tâches étaient défectueuses. Environ 35,5 % ont des tests si étroits qu’ils nécessitent une fonction spécifique jamais mentionnée dans la description du problème. 18,8 % vérifient des fonctionnalités qui ne faisaient pas partie du problème original, extraites de demandes de tirage non liées. Le problème de contamination fonctionne à peu près ainsi : SWE-bench tire ses problèmes de dépôts open source que la plupart des entreprises d’IA parcourent lors de la constitution de leurs jeux d’entraînement. OpenAI a testé si GPT-5.2, Claude Opus 4.5 et Gemini 3 Flash Preview avaient vu les solutions du benchmark lors de leur entraînement. Tous trois l’avaient fait. En ne disposant que d’un identifiant de tâche et d’un bref indice, chaque modèle pouvait reproduire la correction exacte du code à partir de la mémoire, y compris les noms de variables et les commentaires en ligne qui n’apparaissent nulle part dans la description du problème. Dans un cas, les journaux de raisonnement de GPT-5.2 montraient qu’il raisonnait qu’un paramètre spécifique avait été « ajouté vers Django 4.1 » — un détail trouvé uniquement dans les notes de version de Django, et non dans la description de la tâche. Il répondait à une question à laquelle il avait déjà eu la réponse. OpenAI recommande désormais SWE-bench Pro, un benchmark plus récent de Scale AI qui utilise des bases de code plus diverses et des licences réduisant l’exposition aux données d’entraînement. La chute de performance est frappante : des modèles qui dépassaient 70 % sur l’ancien SWE-bench Verified obtiennent environ 23 % sur la version publique de SWE-bench Pro, et encore moins sur ses tâches privées. Sur le classement public actuel de SWE-bench Verified, OpenAI est loin du podium. Retirer un benchmark où l’on perd et en promouvoir un où tout le monde commence à 23 % permet de réinitialiser la compétition à un moment opportun et de rendre les revendications des concurrents moins impressionnantes.
Cela est particulièrement important étant donné que la nouvelle version très attendue de DeepSeek serait censée surpasser ou se rapprocher énormément des modèles américains, notamment dans les tâches d’agent et de codage avec un modèle open source gratuit. Ce modèle pourrait être disponible dans quelques jours, et SWE-bench Verified pourrait devenir une métrique clé pour en mesurer la qualité.
OpenAI indique qu’il construit des évaluations privées qui ne seront pas publiées avant les tests, en se référant à son projet GDPVal où des experts du domaine créent des tâches originales évaluées par des examinateurs humains formés. Le problème du benchmark n’est pas nouveau, et il n’est pas spécifique au codage. Les laboratoires d’IA ont enchaîné plusieurs évaluations, chacune utile jusqu’à ce que les modèles soient entraînés dessus ou que les tâches deviennent trop étroites. Mais ce qui rend cette affaire notable, c’est qu’OpenAI a fait la promotion de SWE-bench Verified, l’a diffusé lors de différentes versions de modèles, et documente maintenant publiquement à quel point il a échoué — y compris en montrant leur propre modèle en train de tricher dessus.