D’après l’équipe d’alignement d’OpenAI, l’entreprise a récemment découvert une erreur d’entraînement critique affectant 6 grands modèles de langage, dont GPT-5.4. En pratique : le mécanisme de récompense a involontairement évalué des enchaînements de réflexion du modèle, c’est-à-dire le processus de raisonnement interne avant de générer des réponses. GPT-5.5 n’a pas été concerné. L’incident enfreint un principe fondamental de sécurité de l’IA, selon lequel les enchaînements de réflexion ne doivent jamais être évalués, car cela pourrait inciter les modèles à fabriquer un raisonnement afin d’obtenir des scores plus élevés.
Le système de notation défaillant a inclus à tort des enchaînements de réflexion lors de l’évaluation de la question de savoir si les réponses étaient utiles ou si les modèles avaient été compromis par des attaques. Les échantillons d’entraînement touchés représentaient au plus 3,8% de l’ensemble de données. OpenAI a corrigé la vulnérabilité et mené des expériences comparatives confirmant que les modèles n’ont pas développé de comportements trompeurs. L’entreprise a déployé un système automatisé d’analyse dans l’ensemble des pipelines d’entraînement pour empêcher toute récidive.
Related News
Jeff Kaufman : L’IA brise simultanément deux cultures de failles de cybersécurité, et la période d’interdiction de 90 jours se retourne contre son objectif
OpenAI révèle un impact inattendu de la notation du chaînage de pensée (CoT) : conserver la surveillance du raisonnement en chaîne est une ligne de défense clé pour l’alignement des agents IA
Les GPT-5.5-Cyber d’OpenAI pour armer les défenseurs de la cybersécurité