П’ять моделей Frontier AI не погодилися щодо 67% тверджень у найновішому дослідженні перевірки фактів

Дослідник Коста Джорданов з Lenz Research повідомив, що цього місяця п’ять «фронтирних» моделей ШІ не зійшлися в оцінках щодо 67% із 1 000 реальних фактчек-заяв, перевірених на практиці. Моделям — GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro з Search та Sonar Pro — запропонували класифікувати твердження як істинні, здебільшого істинні, оманливі або хибні. У 34% випадків розбіжності були різкими: одна модель називала твердження істинним, тоді як інша — хибним.

Дослідження вимірювало узгодженість за допомогою альфи Криппендорфа: вона становила 0,639 за шкалою, де 1,0 означає ідеальну узгодженість; загалом у наукових колах значення нижче 0,8 вважають слабкими. Одностайна згода траплялася лише щодо 328 із 1 000 тверджень, а ще показово: жодне твердження не отримало одностайного вердикту «здебільшого істинне». Дослідники використали твердження, подані реальними користувачами на платформу фактчекінгу Lenz, а не стандартні бенчмарки, що зменшує ймовірність того, що моделі «підганятимуть» відповіді під патерни з даних тренування.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
GateUser-84f1f85dvip
· 50хв. тому
1000x Вібрації 🤑
Переглянути оригіналвідповісти на0
GateUser-84f1f85dvip
· 50хв. тому
Тримайся міцно 💪
Переглянути оригіналвідповісти на0
GateUser-84f1f85dvip
· 50хв. тому
Бичий забіг 🐂
Переглянути оригіналвідповісти на0
GateUser-84f1f85dvip
· 50хв. тому
Обезьяна у 🚀
Переглянути оригіналвідповісти на0