GPT-5は本番インシデントで62.7%の精度を記録するも、72.7%の専門家ベースラインには届かない

Datadog とカーネギーメロン大学の最新ベンチマークによると、GPT-5 は ARFBench テストで 62.7% の精度を達成したものの、人間の分野専門家の 72.7% に届かなかった。ARFBench は 63 件の実運用インシデントから構築された最初の AI ベンチマークで、750 問の多肢選択問題を含み、142 の監視メトリクスと 538 万のデータポイントを対象としており、合成データはない。

AI モデルは、特にメトリクス横断の推論(Tier III の問題)で最も苦戦しており、GPT-5 は F1 で 47.5% にとどまった。AI と人間の判断を組み合わせた理論上のモデル・エキスパート・オラクルは 87.2% の精度に到達し、協調が単独のどちらよりも上回り得ることを示している。Datadog のハイブリッドモデルである Toto-1.0-QA-Experimental は、精度 63.9% でリーダーボードのトップに立ち、異常の特定において GPT-5 を上回った。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし