За даними Beating, Prime Intellect відкрила вихідний код general-agent — середовища навчання самоеволюційного агента, яке використовує механіку генерації завдань у форматі «два гравці». Система автоматично згенерувала 4 504 завдання та понад 8 000 унікальних інструментів, чергуючи між собою синтезатор завдань і розв’язувач, а також розподіляючи виклики на п’ять рівнів складності за допомогою дев’яти стратегій, зокрема умов обмежень, «шумних» інструкцій і зв’язування між різними сутностями.
У тестуванні доопрацювання моделі з 30B параметрів на 4 400+ траєкторіях із середовища покращило точність викликів інструментів із 18,9% до 52,3% у бенчмарку BFCL, демонструючи здатність цієї структури генерувати семантично верифіковані навчальні дані без потреби в ручно анотованих статичних наборах.