За Beating, Microsoft нещодавно відкрито опублікувала у відкритому доступі сімейство моделей Phi-Ground, створених для вирішення проблеми того, куди саме ШІ має клікати на екрані комп’ютера. Версія з 4 мільярдами параметрів у парі з більшими мовними моделями для планування інструкцій перевищила точність кліків OpenAI Operator і Claude Computer Use у бенчмарку Showdown та посіла перше місце серед усіх моделей із менш ніж 100 мільярдами параметрів у п’яти оцінюваннях, зокрема в ScreenSpot-Pro.
Команда навчала модель більш ніж на 40 мільйонах датасетів і з’ясувала, що три поширені техніки тренування, які використовують у наукових статтях, стали неефективними в масштабі. Ключовий підхід виявився простим: виводити координати як звичайні числа, наприклад, “523, 417.” Попередні дослідження створювали спеціалізовані словники позицій для координат, але вони не витримали масштабування. Також команда виявила, що розміщення текстових інструкцій перед зображеннями підвищує продуктивність, оскільки моделі могли визначати цілі під час опрацювання пікселів. Крім того, методи підкріплювального навчання на кшталт DPO покращили точність навіть після донавчання.
Related News
NVIDIA відкрила довгострокове партнерство з Deepinfra, який залучив 107 млн доларів у раунді B для створення «токен-фабрики»
Кіберзахисників озброює GPT-5.5-Cyber від OpenAI
OpenAI випускає GPT-Realtime-2: інтегрує міркування GPT-5 у голосових агентів, а context збільшує до 128K