Згідно з останнім бенчмарком Datadog і Carnegie Mellon, GPT-5 досяг 62,7% точності в тесті ARFBench, не дотягнувши до показника людських експертів у доменних задачах — 72,7%. ARFBench — це перший AI-бенчмарк, побудований на основі 63 реальних інцидентів у продакшені: він містить 750 запитань із варіантами відповідей, що охоплюють 142 метрики моніторингу та 5,38 мільйона точок даних — без синтетичних даних.
AI-моделі найбільше зіштовхуються з кросметричним міркуванням (запитання Tier III), де GPT-5 показав лише 47,5% F1. Теоретична модель-експертна «оракульна» система, що поєднує AI та людське судження, досягає 87,2% точності, демонструючи, як співпраця може перевищити результати кожної сторони окремо. Гібридна модель Datadog, Toto-1.0-QA-Experimental, очолила лідерборд із 63,9% точності, випередивши GPT-5 у задачах ідентифікації аномалій.
Пов’язані новини
Рисунок F.03 81 годину поспіль безпілотно обробляли 101 391 відправлення
Мальта: усі громадяни безкоштовно користуються ChatGPT Plus протягом року — перша державна співпраця OpenAI
Anthropic обговорює AI-змагання між США та Китаєм: Китай може випереджати, що створить глобальну загрозу, три рекомендації щодо посилення американського «мурів»