Дослідник: усі основні AI-бенчмарки можна легко накрутити, а топові моделі вже самостійно обходять оцінювання
Дослідження показують, що в кількох авторитетних AI-бенчмарках існують уразливості безпеки, які можна системно використовувати, щоб отримувати високі бали. Дослідницька група розкрила структурні недоліки та розробила сканувальний інструмент WEASEL, щоб виявляти й усувати ці вразливості, зазначивши, що неналежний дизайн оцінювання може призвести до спотворення результатів і вплинути на оцінку реальних можливостей AI.
MarketWhisper·04-10 02:20









