Le système de récompense d'OpenAI évalue par inadvertance des chaînes de raisonnement sur 6 modèles, dont GPT-5.4

D’après l’équipe d’alignement d’OpenAI, l’entreprise a récemment découvert une erreur d’entraînement critique affectant 6 grands modèles de langage, dont GPT-5.4. En pratique : le mécanisme de récompense a involontairement évalué des enchaînements de réflexion du modèle, c’est-à-dire le processus de raisonnement interne avant de générer des réponses. GPT-5.5 n’a pas été concerné. L’incident enfreint un principe fondamental de sécurité de l’IA, selon lequel les enchaînements de réflexion ne doivent jamais être évalués, car cela pourrait inciter les modèles à fabriquer un raisonnement afin d’obtenir des scores plus élevés.

Le système de notation défaillant a inclus à tort des enchaînements de réflexion lors de l’évaluation de la question de savoir si les réponses étaient utiles ou si les modèles avaient été compromis par des attaques. Les échantillons d’entraînement touchés représentaient au plus 3,8% de l’ensemble de données. OpenAI a corrigé la vulnérabilité et mené des expériences comparatives confirmant que les modèles n’ont pas développé de comportements trompeurs. L’entreprise a déployé un système automatisé d’analyse dans l’ensemble des pipelines d’entraînement pour empêcher toute récidive.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire