По данным Beating, Prime Intellect опубликовала в открытый доступ общее агентное решение (general-agent) — самовозобновляющуюся среду для обучения агентов, которая использует механики генерации задач с участием двух игроков. Система автоматически сгенерировала 4 504 задачи и более 8 000 уникальных инструментов, чередуя генератор задач и решатель, а также распределяя вызовы по пяти уровням сложности с помощью девяти стратегий, включая условия-ограничения, зашумленные инструкции и связку между сущностями.
В тестировании дообучение модели с 30 млрд параметров на 4 400+ траекториях из среды улучшило точность вызова инструментов с 18,9% до 52,3% на бенчмарке BFCL, продемонстрировав способность этой схемы генерировать семантически верифицированные обучающие данные без опоры на вручную размеченные статические датасеты.