Команда NUS выпустила бенчмарк GameWorld, включающий 34 браузерные игры, 170 задач, с проверяемыми метриками для объективной оценки. Тестируются два типа интерфейсов агентов: direct keyboard-mouse commands — компьютерное использование и универсальный мультимодальный агент, работающий в семаническом пространстве. Эмпирические результаты 18 комбинаций моделей и интерфейсов показывают, что даже лучшие из них значительно уступают человеку, а также сталкиваются с проблемами в области задержек в реальном времени, чувствительности к памяти контекста и эффективности действий. Связанные статьи и код опубликованы на HuggingFace и GitHub.

MeNews

2026-05-21 19:59:48

Генерация тезисов в процессе

МЕ Новости, 17 апреля (UTC+8), согласно мониторингу 动察 Beating, команда Национального университета Сингапура (NUS) выпустила GameWorld — эталонный тест, предназначенный для стандартизации оценки возможностей мультимодальных больших языковых моделей (MLLM) в видеоиграх как универсальных агентов. Исследование указывает, что несмотря на то, что видеоигры предоставляют идеальную замкнутую тестовую среду для взаимодействия, существующие оценки часто ограничены несогласованностью интерфейсов и ручной эвристической проверкой. GameWorld включает 34 разнообразных браузерных игры и 170 задач, при этом для каждой задачи предусмотрены проверяемые показатели, основанные на состоянии игры, что обеспечивает объективную оценку результатов. Исследовательская команда протестировала два типа интерфейсов для агентов: первый — агент «использование компьютера (computer-use)», который напрямую выводит команды клавиатуры и мыши, и второй — универсальный мультимодальный агент, который управляет в семантическом пространстве действий через семантический разбор. В масштабном тестировании 18 «комбинаций модели и интерфейса» результаты показали, что даже лучшие на сегодняшний день AI-агенты значительно уступают человеку по игровым способностям. Исследование также выявило серьезные проблемы в области задержек при взаимодействии в реальном времени, чувствительности к контекстной памяти и эффективности действий. Связанный документ и исходный код проекта опубликованы на Hugging Face и GitHub. (Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

12 Лайков

Награда
12
5
7
Поделиться

комментарий

Добавить комментарий

FrontrunTherapy

· 59м назад

Реальное время задержки и память контекста — эти две проблемы, скорее всего, не удастся решить в течение полугода.

Посмотреть ОригиналОтветить0

GateUser-c4e25c95

· 1ч назад

Команды клавиатуры и мыши — это слишком жестко, универсальный мультимодальный подход — это правильное решение

Посмотреть ОригиналОтветить0

StakingDaydreamer

· 1ч назад

Низкая эффективность действий указывает на слабость уровня планирования, цепочка восприятия и принятия решений не налажена.

Посмотреть ОригиналОтветить0

ExitLiquidityPoet

· 1ч назад

Публичный код вызывает положительные отзывы, порог для воспроизведения снизился, сообщество может вместе развиваться

Посмотреть ОригиналОтветить0

RevokingPermissionsOnARainy

· 1ч назад

Браузерная среда сложнее, чем кажется, DOM меняется быстро, состояние скрыто, агенту легко запутаться

Посмотреть ОригиналОтветить0

Популярные темы
Подробнее
#
TradfiTradingChallenge
235.18K Популярность
#
GrayscaleBuysAndStakesOver510KHYPE
8.91M Популярность
#
IsraelStrikesIranBTCPlunges
48.48K Популярность
#
#DailyPolymarketHotspot
1.02M Популярность
#
SpaceXOfficiallyFilesforIPO
751.62K Популярность

Закреплено

Карта сайта

Команда NUS выпустила бенчмарк GameWorld, оценив мультимодальных AI-агентов в 34 браузерных играх

Популярные темы

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

Закреплено