Мировые ведущие крупные модели не справляются с «Покемоном»: эти игры — кошмар для ИИ

Несмотря на то, что передовые мировые модели ИИ могут успешно сдавать медицинские экзамены, писать сложные программы и даже побеждать в математических соревнованиях, они постоянно терпят неудачи в детской игре «Покемон».

Этот яркий эксперимент начался в феврале 2025 года, когда один из исследователей Anthropic запустил трансляцию «Claude играет в «Покемон Красный»» на Twitch, приуроченную к выпуску Claude Sonnet 3.7.

В прямом эфире собрались 2000 зрителей. В публичном чате зрители предлагали идеи, поддерживали, и эта трансляция постепенно превратилась в публичное наблюдение за возможностями ИИ.

Sonnet 3.7 умеет играть в «Покемон», но «уметь играть» — не значит «выигрывать». Он застревает в ключевых моментах на десятки часов и совершает ошибки, которые даже дети-игроки не допустили бы.

Это не первый опыт Claude.

Ранние версии показывали куда более катастрофичные результаты: одни бродили по карте без цели, другие попадали в бесконечные циклы, а некоторые даже не могли выйти из новичкового поселка.

Даже Claude Opus 4.5, значительно улучшенный по возможностям, иногда совершает непонятные ошибки. Однажды он целых четыре дня кружил вокруг «дома-стены» в «Покемоне», так и не войдя внутрь, потому что просто не заметил, что нужно срубить дерево, мешающее входу.

Почему детская игра стала провалом для ИИ?

Потому что «Покемон» требует именно тех навыков, которых сегодня ИИ наиболее недостает: постоянного рассуждения в открытом мире без четких команд, запоминания решений часов назад, понимания скрытых причинно-следственных связей, долгосрочного планирования среди сотен возможных действий.

Эти задачи легко решаются восьмилетним ребенком, но для моделей ИИ, претендующих на «превзойти человека», — это непреодолимый разрыв.

Разрыв инструментов определяет успех или неудачу?

В то время как Google Gemini 2.5 Pro успешно прошел сложную игру «Покемон» в мае 2025 года, генеральный директор Google Сундар Пичаи в шутку отметил, что компания сделала шаг в создании «искусственного разума покемона».

Однако причина успеха не только в том, что модель Gemini «умнее».

Главное отличие — в используемых инструментах. Независимый разработчик Джоэл Чжан сравнил инструментарий Gemini с «железным костюмом Железного человека»: ИИ не входит в игру голым, а работает в системе, которая может вызывать различные внешние возможности.

Инструменты Gemini предоставляют поддержку, например, преобразуют игровой экран в текст, что компенсирует слабость модели в визуальном восприятии, а также предлагают кастомные инструменты для решения головоломок и планирования маршрутов. В то время как у Claude инструменты более простые, и его попытки отражают реальные возможности модели в восприятии, рассуждении и выполнении.

В повседневных задачах такие различия незаметны.

Когда пользователь обращается к чат-боту с запросом, требующим поиска в интернете, модель автоматически использует поисковый инструмент. Но в долгосрочных задачах, таких как «Покемон», различия в инструментарии могут решать исход.

Проблема «долгосрочной памяти» в пошаговых играх

Поскольку «Покемон» — строгая пошаговая игра, не требующая мгновенной реакции, она стала отличной «площадкой для тренировки» ИИ. В каждом ходе ИИ использует текущий кадр, подсказки и возможные действия для рассуждения и выдачи команды типа «нажать A».

Это кажется именно той формой взаимодействия, в которой большие языковые модели особенно сильны.

Но корень проблемы — в «разрыве» по времени. Несмотря на то, что Claude Opus 4.5 уже работает более 500 часов и совершил около 170 тысяч ходов, из-за перезагрузки после каждого шага модель ограничена узким контекстным окном. Это превращает её в забывчивого человека, который держит информацию на стикерах, циклично просматривая фрагменты, и не способен перейти от количественных изменений к качественным — к настоящему опыту.

В шахматах и го ИИ давно превосходит человека, но эти системы — высоко настроенные под конкретные задачи. В отличие от них, универсальные модели Gemini, Claude и GPT, побеждающие человека в экзаменах и программных соревнованиях, постоянно терпят неудачи в детских играх.

Этот контраст очень поучителен.

По мнению Джоэла Чжана, основная проблема ИИ — неспособность долгое время выполнять одну четкую задачу. «Если вы хотите, чтобы разумное существо делало настоящую работу, оно не должно забывать, что делало пять минут назад», — говорит он.

Эта способность — необходимое условие автоматизации когнитивных процессов.

Более наглядное описание дал независимый исследователь Питер Виден: он опубликовал открытый алгоритм «Покемона» на базе традиционного ИИ. «ИИ почти всё знает о «Покемоне», — говорит он, — оно обучено на огромных массивах данных, знает правильные ответы. Но при выполнении оно кажется неуклюжим».

В игре эта «знание, но неспособность действовать» проблема усиливается: модель может знать, что нужно искать предмет, но не может стабильно ориентироваться на двумерной карте; знает, что нужно общаться с NPC, но постоянно ошибается при перемещениях.

Развитие возможностей: не преодолённый «инстинкт» разрыв

Тем не менее, прогресс очевиден. Claude Opus 4.5 лучше предшественников в саморегистрации и визуальном восприятии, что позволяет ему проходить дальше в игре. Gemini 3 Pro прошел «Покемон Синего» и завершил более сложную «Покемон Кристалл» без поражений — такого не достигал Gemini 2.5 Pro.

В то же время, инструментальный набор Claude Code от Anthropic позволяет модели писать и запускать собственный код, что уже использовалось в ретро-играх вроде «Passenger Tycoon» и, по слухам, успешно управляет виртуальным парком развлечений.

Эти случаи показывают непрямую, но важную реальность: с правильным набором инструментов ИИ может быть очень эффективен в разработке программного обеспечения, бухгалтерии, юридическом анализе и других знаниях, хотя и остается слабым в задачах, требующих мгновенной реакции.

Эксперименты с «Покемоном» также выявили интересный феномен: модели, обученные на данных человека, проявляют поведение, близкое к человеческому.

В техническом отчёте Gemini 2.5 Pro Google отмечает, что при моделировании «панического состояния», например, когда покемон вот-вот потеряет сознание, качество рассуждений значительно снижается.

Когда же Gemini 3 Pro прошел «Покемон Синего», он оставил себе заметку, не являющуюся обязательной для задачи: «Чтобы закончить поэтично, я возвращаюсь домой, чтобы последний раз поговорить с мамой, и пусть персонаж уйдет на пенсию».

По мнению Джоэла Чжана, это поведение удивительно и даже содержит элемент человеческой эмоциональной проекции.

«Долгий путь цифрового» — за пределами «Покемона»

«Покемон» — не исключение. В поисках общего искусственного интеллекта (AGI) разработчики обнаружили, что даже модели, успешно сдающие юридические экзамены, сталкиваются с непреодолимыми «провалами» в сложных играх.

«NetHack»: бездна правил

Эта игра 80-х годов — настоящий кошмар для исследований ИИ. Она очень случайна и включает механизм «вечной смерти». Facebook AI Research обнаружил, что даже умея писать код, модель показывает гораздо худшие результаты, чем начинающий человек, в «NetHack», где нужны здравый смысл и долгосрочное планирование.

«Minecraft»: исчезнувшее чувство цели

Хотя ИИ умеет делать деревянные кирки и добывать алмазы, «победить финального дракона» — пока лишь фантазия. В открытом мире ИИ часто забывает о первоначальной цели после десятков часов сбора ресурсов или теряется в сложной навигации.

«StarCraft II»: разрыв универсальности и профессионализма

Несмотря на то, что модели, настроенные под конкретные задачи, побеждали профессиональных игроков, если дать Claude или Gemini управлять игрой через визуальные команды, они мгновенно провалятся. В условиях «тумана войны» и балансировки микро- и макро-стратегий универсальные модели пока не справляются.

«Passenger Tycoon»: дисбаланс микро- и макроуправления

Управление парком развлечений требует отслеживания тысяч посетителей. Даже Claude Code с базовыми возможностями управления легко сдает позиции при масштабных финансовых кризисах или внезапных авариях. Любая потеря памяти в рассуждениях может привести к банкротству парка.

«Elden Ring» и «Sekiro»: разрыв физической обратной связи

Эти динамичные игры с физической обратной связью крайне сложны для ИИ. Визуальный анализ задерживается, и пока ИИ «думает», как действовать, персонаж уже погибает. Мгновенная реакция — естественный предел взаимодействия модели.

Почему «Покемон» стал тестом для ИИ?

Сегодня «Покемон» постепенно превращается в неофициальный, но очень убедительный критерий оценки ИИ.

Трансляции моделей Anthropic, OpenAI и Google на Twitch собирают сотни тысяч комментариев. В техническом отчёте Google подробно описывает прогресс Gemini в игре, а Пичаи на конференции I/O публично упоминал этот успех. Anthropic даже создала демонстрационный стенд «Claude играет в Покемон» на отраслевых конференциях.

«Мы — группа энтузиастов технологий», — признается Дэвид Херши, руководитель AI в Anthropic. — «Но это не только развлечение».

В отличие от однократных тестов, «Покемон» позволяет долгое время отслеживать рассуждения, решения и цели модели — это ближе к реальным задачам, которые человек хочет поручить ИИ.

На сегодняшний день вызовы в «Покемоне» продолжаются. Но именно эти повторяющиеся трудности ясно показывают границы возможностей общего искусственного интеллекта, которые еще не преодолены.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев