Сравнение бенчмарков Sakana Fugu и Fable 5 подвергается сомнению, различия в тестовой среде могут привести к отклонению в 10–20 баллов.

robot
Генерация тезисов в процессе
ME AI Сообщается, по данным мониторинга Beating, японский AI-стартап Sakana AI заявил, что их мультиагентная кооперативная система Fugu Ultra превзошла флагманскую модель Anthropic Fable 5 в нескольких бенчмарках, включая научное рассуждение и программирование, однако выводы о результатах были подвергнуты широкой критике сообщества. Критики указывают, что сравнение собственных тестовых данных в нестандартизированных условиях необъективно. Оценки сильно зависят от используемого скрипта (Scaffold/Harness), и различия между разными скриптами могут достигать 10-20 баллов, что означает, что так называемое «превосходство» во многом является результатом системной инженерии, а не межпоколенческого превосходства базовых моделей. Независимые оценочные данные показывают, что скрипты для агентов, построенные вокруг больших моделей, оказывают огромное влияние на итоговые результаты. На одной и той же модели Claude Opus 4.5 замена трех различных открытых скриптов приводила к колебаниям показателя исправления в бенчмарке SWE-bench Pro от 50,2% до 55,4%. Анализ независимой тестовой организации Scale AI дополнительно подтвердил, что такие стратегии, как шаблоны подсказок, лимит попыток, управление сохранением контекста и интеграция вызова инструментов, могут привести к разбросу в 10-20 баллов для одних и тех же весов модели. Поскольку данные, опубликованные Sakana AI и Anthropic, основаны на закрытых скриптах, оптимизированных под их собственные системы (Vendor Scaffold), и не проходили стандартизированное независимое тестирование в среде третьей стороны (например, Scale SEAL), эти данные не могут объективно отражать разницу в базовых возможностях двух моделей. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено