ME AI Сообщается, по данным мониторинга Beating, японский AI-стартап Sakana AI заявил, что их мультиагентная кооперативная система Fugu Ultra превзошла флагманскую модель Anthropic Fable 5 в нескольких бенчмарках, включая научное рассуждение и программирование, однако выводы о результатах были подвергнуты широкой критике сообщества. Критики указывают, что сравнение собственных тестовых данных в нестандартизированных условиях необъективно. Оценки сильно зависят от используемого скрипта (Scaffold/Harness), и различия между разными скриптами могут достигать 10-20 баллов, что означает, что так называемое «превосходство» во многом является результатом системной инженерии, а не межпоколенческого превосходства базовых моделей. Независимые оценочные данные показывают, что скрипты для агентов, построенные вокруг больших моделей, оказывают огромное влияние на итоговые результаты. На одной и той же модели Claude Opus 4.5 замена трех различных открытых скриптов приводила к колебаниям показателя исправления в бенчмарке SWE-bench Pro от 50,2% до 55,4%. Анализ независимой тестовой организации Scale AI дополнительно подтвердил, что такие стратегии, как шаблоны подсказок, лимит попыток, управление сохранением контекста и интеграция вызова инструментов, могут привести к разбросу в 10-20 баллов для одних и тех же весов модели. Поскольку данные, опубликованные Sakana AI и Anthropic, основаны на закрытых скриптах, оптимизированных под их собственные системы (Vendor Scaffold), и не проходили стандартизированное независимое тестирование в среде третьей стороны (например, Scale SEAL), эти данные не могут объективно отражать разницу в базовых возможностях двух моделей. (Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
SKHynixTopsKOSPIByMarketCap
1,54M Популярность
#
MicronEarningsBeatExpectationsSharesRise
166,83K Популярность
#
IsraelStrikesIranBTCPlunges
63,49K Популярность
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
321,29K Популярность
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
523,14K Популярность

Закреплено

Карта сайта

Сравнение бенчмарков Sakana Fugu и Fable 5 подвергается сомнению, различия в тестовой среде могут привести к отклонению в 10–20 баллов.

Популярные темы

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Закреплено