Perplexity опубликовала метод последующего обучения поискового агента, модель на основе Qwen3.5 превосходит GPT-5.4 по точности и стоимости.

robot
Генерация тезисов в процессе
ME News сообщает, 23 апреля (UTC+8), по данным мониторинга Beating, исследовательская группа Perplexity опубликовала техническую статью, описывающую процесс пост-тренировки своего веб-поискового агента. Этот процесс основан на открытых моделях Qwen3.5-122B-A10B и Qwen3.5-397B-A17B и использует двухэтапную схему: сначала supervised fine-tuning (SFT) для установки необходимых для развертывания поведений, таких как следование инструкциям и языковая согласованность, затем онлайн-обучение с подкреплением (RL) для оптимизации точности поиска и эффективности использования инструментов. На этапе RL используется алгоритм GRPO, а обучающие данные состоят из двух частей: во-первых, самостоятельно созданный многопереходный верифицируемый набор данных вопросов и ответов, начиная с внутренних seed-запросов, конструирующий вопросы, требующие 2–4 шагов рассуждения через цепочки сущностей, с проверкой уникальности ответов несколькими независимыми решателями; во-вторых, универсальные диалоговые данные на основе критериев оценки (rubric), преобразующие требования к развертыванию (следование инструкциям, ограничения формата и т.д.) в объективно проверяемые атомарные условия для предотвращения деградации поведения, установленного SFT, на этапе RL. Ключевой элемент дизайна вознаграждения — гейтированная агрегация: только когда базовый ответ правильный (Q&A верен или все критерии удовлетворены), предпочтительный балл участвует в расчете, что предотвращает маскировку фактических ошибок высокими сигналами предпочтения. Штраф за эффективность использует внутригрупповую привязку: на основе правильных ответов в той же группе применяется плавный штраф за превышение количества вызовов инструментов и длины генерации. Оценки показывают, что Qwen3.5-397B-SFT-RL после пост-тренировки демонстрирует наилучшие результаты на нескольких поисковых бенчмарках. На FRAMES с одним вызовом инструмента достигает 57,3%, что на 5,7 процентных пункта выше GPT-5.4 и на 4,7 процентных пункта выше Sonnet 4.6. При среднем бюджете (4 вызова инструмента) — 73,9% при стоимости 2,0 цента за запрос; при тех же условиях GPT-5.4 — 67,8% / 8,5 цента, Sonnet 4.6 — 62,4% / 15,3 цента. Данные о стоимости рассчитаны по открытым API-ценам каждого производителя, без учета кэш-оптимизации. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено