Команда NUS выпустила бенчмарк GameWorld, оценив мультимодальных AI-агентов в 34 браузерных играх

robot
Генерация тезисов в процессе
МЕ Новости, 17 апреля (UTC+8), согласно мониторингу 动察 Beating, команда Национального университета Сингапура (NUS) выпустила GameWorld — эталонный тест, предназначенный для стандартизации оценки возможностей мультимодальных больших языковых моделей (MLLM) в видеоиграх как универсальных агентов. Исследование указывает, что несмотря на то, что видеоигры предоставляют идеальную замкнутую тестовую среду для взаимодействия, существующие оценки часто ограничены несогласованностью интерфейсов и ручной эвристической проверкой. GameWorld включает 34 разнообразных браузерных игры и 170 задач, при этом для каждой задачи предусмотрены проверяемые показатели, основанные на состоянии игры, что обеспечивает объективную оценку результатов. Исследовательская команда протестировала два типа интерфейсов для агентов: первый — агент «использование компьютера (computer-use)», который напрямую выводит команды клавиатуры и мыши, и второй — универсальный мультимодальный агент, который управляет в семантическом пространстве действий через семантический разбор. В масштабном тестировании 18 «комбинаций модели и интерфейса» результаты показали, что даже лучшие на сегодняшний день AI-агенты значительно уступают человеку по игровым способностям. Исследование также выявило серьезные проблемы в области задержек при взаимодействии в реальном времени, чувствительности к контекстной памяти и эффективности действий. Связанный документ и исходный код проекта опубликованы на Hugging Face и GitHub. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 5
  • 7
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
FrontrunTherapy
· 59м назад
Реальное время задержки и память контекста — эти две проблемы, скорее всего, не удастся решить в течение полугода.
Посмотреть ОригиналОтветить0
GateUser-c4e25c95
· 1ч назад
Команды клавиатуры и мыши — это слишком жестко, универсальный мультимодальный подход — это правильное решение
Посмотреть ОригиналОтветить0
StakingDaydreamer
· 1ч назад
Низкая эффективность действий указывает на слабость уровня планирования, цепочка восприятия и принятия решений не налажена.
Посмотреть ОригиналОтветить0
ExitLiquidityPoet
· 1ч назад
Публичный код вызывает положительные отзывы, порог для воспроизведения снизился, сообщество может вместе развиваться
Посмотреть ОригиналОтветить0
RevokingPermissionsOnARainy
· 1ч назад
Браузерная среда сложнее, чем кажется, DOM меняется быстро, состояние скрыто, агенту легко запутаться
Посмотреть ОригиналОтветить0
  • Закреплено