Дослідження, опубліковане цього місяця дослідником Костою Йордановим у Lenz Research, виявило, що п’ять «прикордонних» AI-моделей не погодилися щодо 67% із 1 000 реальних тверджень для фактчекінгу, причому лише по 328 твердженнях було досягнуто одностайності. У дослідженні тестували GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro із Search і Sonar Pro на твердженнях, поданих реальними користувачами на платформу для фактчекінгу. Моделі набрали показник альфи Криппендорфа 0,639, що нижче порога 0,8, який дослідники загалом вважають надійним. Розбіжності виникали попри те, що всі моделі оцінювали однакові твердження за тією самою чотирирівневою системою міток: true (істина), mostly true (переважно істина), misleading (манівцево), або false (хибне). Результати підкреслюють проблеми з надійністю, коли люди дедалі частіше звертаються до AI-систем для фактчекінгу.
Методологія дослідження: використані твердження, подані реальними користувачами
Дослідження дало п’яти AI-моделям ті самі 1 000 реальних тверджень для фактчекінгу, поданих реальними користувачами. Моделі мали вибрати одну з чотирьох міток: true (істина), mostly true (переважно істина), misleading (манівцево) або false (хибне). У дослідженні використано твердження, надіслані реальними людьми на фактчекінгову платформу Lenz, а не взяті з типових тестових наборів. «Більшість цих тверджень навряд чи з’являться в будь-якому навчальному корпусі із прикріпленою “золотою” міткою — немає канонічної відповіді для звірки за патернами, немає лідерборду-бенчмарку, щоб мати точку опори», — зазначено в роботі.
П’ять AI-моделей не погодилися щодо 672 із 1 000 тверджень
У 672 випадках із 1 000 тверджень принаймні одна модель відхилилася від більшості. У 34% випадків розбіжність була суттєвою: одна модель назвала твердження true, тоді як інша — false. «Це не бенчмарк-елементи з публічними ключами відповідей — це твердження, які реальні користувачі подали для перевірки на платформу фактчекінгу», — читаємо в дослідженні. «Лише один вердикт може бути правильним для кожного твердження, тож будь-яка розбіжність серед панелі означає, що принаймні вердикт однієї моделі є непослідовним за цією 4-баковою рубрикою».
Статистичний показник надійності впав нижче стандартного порога
Статистичний показник узгодженості, що називається альфою Криппендорфа, склав 0,639 за шкалою, де 1,0 означає ідеальну узгодженість, а 0 — випадковий шанс. У дослідженні сказано, що це вказує на «незначущу, але обмежену узгодженість». «Вердикти моделей є структурованими, а не випадковими, але недостатньо узгодженими, щоб розглядати панель як єдиного взаємозамінного суддю», — зазначають дослідники. Як правило, дослідники вважають усе, що нижче 0,8, слабким.
Моделі продемонстрували різке розходження на прикладах тверджень
Дослідники навели приклади тверджень, де AI-моделі розходилися найбільше, зокрема: «Активний інвестиційний портфель Світового банку в Нігерії станом на 2025 рік перевищує $16,4 млрд». GPT-5.4 сказав, що це «переважно істина», тоді як Gemini 3 Pro назвав це «хибним», а його сестринська модель Gemini 3 Pro + Search оцінила як «манівцево».
В іншому прикладі моделям надали твердження: «Дональд Трамп сказав, що атаку на Іран було відкладено на прохання союзників із Перської затоки». GPT-5.4 сказав false, Claude Opus 4.7 назвав mostly true, Gemini 3 Pro — false, а Gemini 3 Pro + Search оцінив як true.
Одностайність траплялася лише на фактичних крайнощах
Коли всі п’ять моделей таки погоджувалися — а це сталося лише у 328 із 1 000 тверджень — вони майже ніколи не погоджувалися, що щось є misleading або mostly true. Лише чотири твердження отримали одностайний вердикт «манівцево». Жодне не отримало одностайного «переважно істина». «Панель сходиться на остаточних вердиктах; саме середина рубрики дає тріщини», — з’ясували дослідники. Одностайність траплялася лише на крайнощах: або твердження було точно істинним, або точно хибним.
Автори статті обережно це підкреслюють: «Більшість “прикордонних” моделей — не істина. Більшість вердиктів інколи помиляється; окремий опозиційний вердикт інколи виявляється правильним. Ми використовуємо більшість як структурну точку відліку для вимірювання розбіжностей, а не як заміну правильності».
FAQ
Що з’ясувало дослідження Lenz Research про узгодженість AI-моделей під час фактчекінгу?
Дослідження показало, що п’ять «прикордонних» AI-моделей розійшлися в оцінках щодо 67% із 1 000 реальних тверджень для фактчекінгу, поданих реальними користувачами. Одностайність траплялася лише щодо 328 тверджень, а моделі досягли показника альфи Криппендорфа 0,639, що нижче порога надійності 0,8, який дослідники загалом вважають прийнятним.
Як AI-моделі впоралися з прикладом твердження про портфель Світового банку в Нігерії?
ChatGPT 5.4 оцінив твердження «Активний інвестиційний портфель Світового банку в Нігерії станом на 2025 рік перевищує $16,4 млрд» як «переважно істина», тоді як Gemini 3 Pro назвав його false, а Gemini 3 Pro + Search оцінив як «манівцево», що демонструє різке розходження між моделями щодо того самого фактичного твердження.
Чому дослідження використало твердження, подані реальними користувачами, а не стандартні тестові набори?
Дослідники використали твердження, подані реальними людьми на фактчекінгову платформу Lenz, оскільки більшість із цих тверджень навряд чи з’являються в будь-якому навчальному корпусі із прикріпленою “золотою” міткою. Це усуває можливість того, що моделі будуть звірятися за патернами з ключами відповідей бенчмарків, і дає реалістичніший тест надійності фактчекінгу.