GPT-5 досяг 62,7% точності на інцидентах у продакшені, але не дотягує до 72,7% експертного базового рівня

2026-05-18 21:11:44

Згідно з останнім бенчмарком Datadog і Carnegie Mellon, GPT-5 досяг 62,7% точності в тесті ARFBench, не дотягнувши до показника людських експертів у доменних задачах — 72,7%. ARFBench — це перший AI-бенчмарк, побудований на основі 63 реальних інцидентів у продакшені: він містить 750 запитань із варіантами відповідей, що охоплюють 142 метрики моніторингу та 5,38 мільйона точок даних — без синтетичних даних.

AI-моделі найбільше зіштовхуються з кросметричним міркуванням (запитання Tier III), де GPT-5 показав лише 47,5% F1. Теоретична модель-експертна «оракульна» система, що поєднує AI та людське судження, досягає 87,2% точності, демонструючи, як співпраця може перевищити результати кожної сторони окремо. Гібридна модель Datadog, Toto-1.0-QA-Experimental, очолила лідерборд із 63,9% точності, випередивши GPT-5 у задачах ідентифікації аномалій.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

05-18 07:46

Elliptic підвищує $120M для платформи комплаєнсу, керованої ШІ, на тлі зростання занепокоєння безпекою

05-18 04:31

Anthropic повідомить ФСБ про висновки щодо кібербезпеки AI-моделі Mythos; ФСБ наступного місяця запустить звіт із найкращими практиками використання ШІ

05-18 03:52

Люди перемогли робота Figure AI у 10-годинному випробуванні з сортування посилок 18 травня

05-18 02:55

Моделі ШІ Китаю генерують на 1,81x більше викликів, ніж у США; попередній перегляд Tencent Hy3 зростає на 210% і лідирує

05-17 06:31

Провідні моделі ШІ, ранжовані за результатами IQ-тесту Mensa; Grok-4.20 Expert і GPT 5.4 Pro набрали порівну — 145

Поглиблений аналіз

Рисунок F.03 81 годину поспіль безпілотно обробляли 101 391 відправлення

ChainNewsAbmedia05-18 06:05

Мальта: усі громадяни безкоштовно користуються ChatGPT Plus протягом року — перша державна співпраця OpenAI

ChainNewsAbmedia05-17 10:23

Anthropic обговорює AI-змагання між США та Китаєм: Китай може випереджати, що створить глобальну загрозу, три рекомендації щодо посилення американського «мурів»

ChainNewsAbmedia05-15 05:55

Прокоментувати

0/400

Немає коментарів