OpenAIの報酬システムが、GPT-5.4を含む6つのモデルの思考チェーンに対してうっかりスコアを付けてしまう

OpenAIのアライメントチームによると、同社は最近、GPT-5.4 Thinking: 報酬メカニズムが意図せず、回答を生成する前の内部推論プロセスである「思考チェーン」にスコアを付けてしまうという重大な学習エラーが、GPT-5.4を含む6つの大規模言語モデルに影響していたことを発見しました。GPT-5.5には影響がありませんでした。これにより、「思考チェーンは決して評価してはならない」というAI安全の基本原則に反しています。そうした評価を行うと、より高いスコアを得るためにモデルが推論を捏造するよう動機づけられうるためです。

欠陥のある採点システムでは、有用な回答かどうか、またはモデルが攻撃によって損なわれていないかどうかを評価する際に、思考チェーンが誤って含まれていました。影響を受けた学習サンプルは、データセットの最大でも3.8%を占めていました。OpenAIは脆弱性を修正し、モデルが欺瞞的な振る舞いを発達させていないことを確認する比較実験を実施しました。同社は再発を防ぐため、すべての学習パイプラインにわたって自動スキャンシステムを導入しています。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし