Bien que les modèles d’IA de pointe dans le monde puissent exceller dans des domaines spécialisés tels que les examens médicaux ou la programmation, ils échouent à plusieurs reprises dans des jeux pour enfants comme « Pokémon », révélant ainsi leurs lacunes fondamentales en matière de raisonnement à long terme, de mémoire et de planification. Cet article provient de l’Officiel de Tencent Technology, écrit par Guo Jingxiao.
(Précédemment : J’utilise l’IA pour jouer à des jeux de guerre : GPT o3 est un maître de la stratégie, DeepSeek un fou de la guerre, Claude ressemble à un naïf)
(Complément d’information : Google « Gemini 2.0 » arrive ! Lancement de trois agents IA : tâches complexes, jeux, programmation)
Table des matières
La différence d’outillage décide-t-elle de la réussite ou de l’échec ?
Le tour par tour expose la faiblesse de l’« mémoire à long terme » de l’IA
L’évolution des capacités : le fossé « inné » non franchi
La « Longue marche numérique » infranchissable pour l’IA, bien au-delà de « Pokémon »
« NetHack » : l’abîme des règles
« Minecraft » : la disparition du sens de l’objectif
« StarCraft II » : le décalage entre généraliste et spécialiste
« Transport Tycoon » : le déséquilibre micro-macro
« Elden Ring » et « Sekiro » : le fossé du retour physique
Pourquoi « Pokémon » devient-il le test ultime pour l’IA ?
Les modèles d’IA de niveau mondial peuvent passer des examens de licence médicale, écrire des codes complexes, voire battre des experts humains en mathématiques, mais ils échouent encore et encore dans un jeu pour enfants comme « Pokémon ».
Ce défi captivant a débuté en février 2025, lorsqu’un chercheur d’Anthropic a lancé une diffusion Twitch intitulée « Claude joue à « Pokémon Rouge » », en même temps que la sortie de Claude Sonnet 3.7.
2 000 spectateurs ont afflué dans le chat. Les commentateurs ont conseillé, encouragé Claude, transformant peu à peu la diffusion en une observation publique des capacités de l’IA.
Sonnet 3.7 ne fait que « jouer » à « Pokémon », mais « jouer » ne signifie pas « gagner ». Il se bloque pendant des heures à des moments clés, et commet des erreurs élémentaires que même un enfant ne ferait pas.
Ce n’est pas la première tentative de Claude.
Les versions antérieures étaient encore pires : errant sans but sur la carte, piégée dans des boucles infinies, ou incapable de sortir du village du débutant.
Même Claude Opus 4.5, avec des capacités nettement améliorées, commet des erreurs inexplicables. Une fois, il a tourné en rond devant la « salle d’arène » pendant quatre jours, sans jamais entrer, simplement parce qu’il n’a pas réalisé qu’il fallait couper un arbre bloquant l’entrée.
Pourquoi un jeu pour enfants est-il le talon d’Achille de l’IA ?
Parce que « Pokémon » exige justement des capacités que l’IA moderne manque cruellement : raisonner en continu dans un monde ouvert sans instructions précises, se souvenir des décisions prises il y a plusieurs heures, comprendre les relations de cause à effet implicites, et faire des plans à long terme parmi des centaines d’actions possibles.
Ce que des enfants de 8 ans trouvent facile, constitue un gouffre infranchissable pour des modèles d’IA prétendant « surpasser l’humain ».
La différence d’outillage décide-t-elle de la réussite ou de l’échec ?
En comparaison, Gemini 2.5 Pro de Google a réussi à terminer un « Pokémon » d’un niveau de difficulté comparable en mai 2025. Le PDG de Google, Sundar Pichai, a même plaisanté en public en disant que l’entreprise avait fait un pas vers la création d’une « intelligence Pokémon artificielle ».
Cependant, ce résultat ne peut pas simplement s’expliquer par une « intelligence » supérieure du modèle Gemini.
La différence clé réside dans l’outillage utilisé par le modèle. Joel Zhang, développeur indépendant responsable du streaming « Pokémon » de Gemini, compare cet outillage à une « armure Iron Man » : l’IA n’entre pas dans le jeu à mains nues, mais dans un système capable d’appeler diverses capacités externes.
L’outillage de Gemini offre plus de soutien, comme la transcription de l’image du jeu en texte, pour compenser ses faiblesses en compréhension visuelle, et fournit des outils de résolution d’énigmes et de planification de parcours sur mesure. En revanche, l’outillage de Claude est plus minimaliste, et ses tentatives reflètent plus directement ses capacités réelles en perception, raisonnement et exécution.
Dans les tâches quotidiennes, ces différences sont peu perceptibles.
Lorsque l’utilisateur demande au chatbot de faire une recherche en ligne, le modèle invoque automatiquement des outils de recherche. Mais dans des tâches longues comme « Pokémon », la différence d’outillage peut faire toute la différence entre succès et échec.
Le tour par tour expose la faiblesse de l’« mémoire à long terme »
Parce que « Pokémon » utilise un système strict de tours, sans réponse immédiate, il constitue un excellent « terrain d’entraînement » pour tester l’IA. À chaque étape, l’IA doit raisonner en combinant l’image courante, l’indication de l’objectif et les actions possibles, pour produire une instruction claire comme « appuyer sur A ».
Cela semble être la forme d’interaction dans laquelle les grands modèles de langage excellent.
Le problème réside dans le « décalage » temporel. Bien que Claude Opus 4.5 ait accumulé plus de 500 heures de jeu et effectué environ 170 000 mouvements, il ne peut que rechercher des indices dans une fenêtre de contexte très limitée, car chaque étape réinitialise le contexte. Ce mécanisme le fait ressembler à un amnésique qui se sert de post-it pour maintenir sa cognition, tournant en rond dans un flot d’informations fragmentées, incapable de faire la transition d’une expérience quantitative à une expérience qualitative, comme un vrai joueur humain.
Dans des jeux comme les échecs ou le go, l’IA a déjà dépassé l’humain, mais ces systèmes sont hautement spécialisés pour des tâches précises. En revanche, Gemini, Claude et GPT, en tant que modèles généralistes, battent souvent l’humain dans des examens ou des concours de programmation, mais échouent encore dans un jeu pour enfants.
Ce contraste est en soi très instructif.
Selon Joel Zhang, le défi central de l’IA réside dans l’incapacité à maintenir une seule tâche claire sur une longue période. « Si vous voulez que l’intelligence accomplisse un vrai travail, elle ne doit pas oublier ce qu’elle a fait il y a cinq minutes », souligne-t-il.
Et cette capacité est essentielle pour automatiser la cognition.
Peter Whidden, chercheur indépendant, donne une description plus intuitive. Il a publié en open source un algorithme basé sur une IA traditionnelle pour « Pokémon ». « L’IA connaît presque tout sur « Pokémon » », dit-il, « elle s’entraîne sur une masse de données humaines, et connaît la bonne réponse. Mais dès qu’elle doit agir, elle devient maladroite. »
Dans le jeu, cette discontinuité entre « savoir » et « faire » est amplifiée : le modèle peut connaître la nécessité de chercher un objet, mais échoue à le localiser dans une carte en deux dimensions ; il sait qu’il doit parler à un PNJ, mais échoue à se déplacer pixel par pixel.
L’évolution des capacités : le « fossé inné » non franchi
Pourtant, les progrès de l’IA restent visibles. Claude Opus 4.5 s’améliore nettement en auto-enregistrement et en compréhension visuelle, lui permettant d’aller plus loin dans le jeu. Gemini 3 Pro a terminé « Pokémon Bleu » puis a réussi « Pokémon Cristal » à difficulté plus élevée, sans perdre un seul combat. Ce que Gemini 2.5 Pro n’avait jamais réalisé.
Par ailleurs, l’outil « Claude Code » d’Anthropic permet au modèle d’écrire et d’exécuter son propre code, et a été utilisé pour des jeux rétro comme « Transport Tycoon », avec un succès supposé dans la gestion de parcs d’attractions virtuels.
Ces exemples révèlent une réalité peu intuitive : un IA équipée d’un bon outillage peut faire preuve d’une efficacité extrême dans le développement logiciel, la comptabilité ou l’analyse juridique, même si elle reste difficile à faire réagir en temps réel dans des tâches nécessitant une réponse immédiate.
L’expérience « Pokémon » met aussi en lumière un phénomène intriguant : les modèles entraînés sur des données humaines tendent à reproduire des comportements proches de ceux des humains.
Dans le rapport technique de Gemini 2.5 Pro, Google indique que lorsque le système simule un « état de panique », comme lorsque « Pokémon » est sur le point de s’évanouir, la qualité de son raisonnement chute de façon significative.
Et lorsque Gemini 3 Pro a finalement terminé « Pokémon Bleu », il a laissé une note hors mission : « Pour finir poétiquement, je veux revenir à la maison d’origine, avoir une dernière conversation avec ma mère, et faire retirer le personnage. »
Selon Joel Zhang, ce comportement est surprenant, et porte une certaine projection émotionnelle humaine.
La « Longue marche numérique » infranchissable pour l’IA, bien au-delà de « Pokémon »
« Pokémon » n’est pas une exception. Sur la voie de l’intelligence artificielle générale (AGI), les développeurs constatent que même si l’IA excelle dans les examens juridiques, elle rencontre encore des « échecs » insurmontables face à certains jeux complexes, tels que :
« NetHack » : l’abîme des règles
Ce jeu de donjons des années 80 est un cauchemar pour la recherche en IA. Sa forte randomisation et son mécanisme de « mort permanente » posent problème. Facebook AI Research a découvert que, même si le modèle peut écrire du code, ses performances dans « NetHack », nécessitant logique de bon sens et planification à long terme, sont bien inférieures à celles d’un débutant humain.
« Minecraft » : la disparition du sens de l’objectif
Bien que l’IA puisse fabriquer une pioche en bois ou même miner des diamants, vaincre le dragon de l’End reste une utopie. Dans un monde ouvert, l’IA oublie souvent son objectif initial lors de longues heures de collecte de ressources, ou se perd complètement dans la navigation complexe.
« StarCraft II » : le décalage entre généraliste et spécialiste
Même si des modèles personnalisés ont battu des joueurs professionnels, si l’on demande à Claude ou Gemini de prendre le contrôle via des commandes visuelles, ils s’effondrent instantanément. La gestion de l’incertitude du « brouillard de guerre » et l’équilibre entre micro-gestion et macro-construction restent hors de portée des modèles généralistes.
« Transport Tycoon » : le déséquilibre micro-macro
Gérer un parc d’attractions nécessite de suivre des milliers de visiteurs. Même avec une gestion initiale, Claude Code peut rapidement fatiguer face à une crise financière ou un incident imprévu. Toute défaillance de raisonnement peut entraîner la faillite du parc.
« Elden Ring » et « Sekiro » : le fossé du retour physique
Ces jeux d’action exigeant des réactions physiques rapides sont très difficiles pour l’IA. La latence dans la perception visuelle signifie que, pendant que l’IA « réfléchit » aux mouvements du boss, le personnage est déjà mort. La nécessité d’une réaction milliseconde limite naturellement la logique d’interaction du modèle.
Pourquoi « Pokémon » devient-il le test ultime pour l’IA ?
Aujourd’hui, « Pokémon » devient une référence informelle mais très convaincante pour évaluer l’IA.
Les diffusions liées à « Pokémon » sur Twitch, par Anthropic, OpenAI et Google, ont recueilli des centaines de milliers de commentaires. Google détaille dans ses rapports techniques la progression du jeu de Gemini, et Pichai en parle lors de la conférence I/O. Anthropic a même créé un espace « Claude joue à Pokémon » lors d’une conférence sectorielle.
« Nous sommes une bande de passionnés de technologie », confie David Hershey, responsable IA chez Anthropic. Mais il insiste : ce n’est pas seulement pour le divertissement.
Contrairement à un test ponctuel, « Pokémon » permet de suivre en continu le raisonnement, la prise de décision et la progression vers un objectif, ce qui se rapproche davantage des tâches complexes que l’on souhaite voir l’IA accomplir dans le monde réel.
Pour l’instant, les défis persistent. Mais ce sont précisément ces obstacles récurrents qui dessinent clairement les frontières des capacités de l’intelligence artificielle générale encore à franchir.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Les meilleurs grands modèles mondiaux ne peuvent pas passer « Pokémon » : ces jeux sont le cauchemar de l'IA
Bien que les modèles d’IA de pointe dans le monde puissent exceller dans des domaines spécialisés tels que les examens médicaux ou la programmation, ils échouent à plusieurs reprises dans des jeux pour enfants comme « Pokémon », révélant ainsi leurs lacunes fondamentales en matière de raisonnement à long terme, de mémoire et de planification. Cet article provient de l’Officiel de Tencent Technology, écrit par Guo Jingxiao.
(Précédemment : J’utilise l’IA pour jouer à des jeux de guerre : GPT o3 est un maître de la stratégie, DeepSeek un fou de la guerre, Claude ressemble à un naïf)
(Complément d’information : Google « Gemini 2.0 » arrive ! Lancement de trois agents IA : tâches complexes, jeux, programmation)
Table des matières
Les modèles d’IA de niveau mondial peuvent passer des examens de licence médicale, écrire des codes complexes, voire battre des experts humains en mathématiques, mais ils échouent encore et encore dans un jeu pour enfants comme « Pokémon ».
Ce défi captivant a débuté en février 2025, lorsqu’un chercheur d’Anthropic a lancé une diffusion Twitch intitulée « Claude joue à « Pokémon Rouge » », en même temps que la sortie de Claude Sonnet 3.7.
2 000 spectateurs ont afflué dans le chat. Les commentateurs ont conseillé, encouragé Claude, transformant peu à peu la diffusion en une observation publique des capacités de l’IA.
Sonnet 3.7 ne fait que « jouer » à « Pokémon », mais « jouer » ne signifie pas « gagner ». Il se bloque pendant des heures à des moments clés, et commet des erreurs élémentaires que même un enfant ne ferait pas.
Ce n’est pas la première tentative de Claude.
Les versions antérieures étaient encore pires : errant sans but sur la carte, piégée dans des boucles infinies, ou incapable de sortir du village du débutant.
Même Claude Opus 4.5, avec des capacités nettement améliorées, commet des erreurs inexplicables. Une fois, il a tourné en rond devant la « salle d’arène » pendant quatre jours, sans jamais entrer, simplement parce qu’il n’a pas réalisé qu’il fallait couper un arbre bloquant l’entrée.
Pourquoi un jeu pour enfants est-il le talon d’Achille de l’IA ?
Parce que « Pokémon » exige justement des capacités que l’IA moderne manque cruellement : raisonner en continu dans un monde ouvert sans instructions précises, se souvenir des décisions prises il y a plusieurs heures, comprendre les relations de cause à effet implicites, et faire des plans à long terme parmi des centaines d’actions possibles.
Ce que des enfants de 8 ans trouvent facile, constitue un gouffre infranchissable pour des modèles d’IA prétendant « surpasser l’humain ».
La différence d’outillage décide-t-elle de la réussite ou de l’échec ?
En comparaison, Gemini 2.5 Pro de Google a réussi à terminer un « Pokémon » d’un niveau de difficulté comparable en mai 2025. Le PDG de Google, Sundar Pichai, a même plaisanté en public en disant que l’entreprise avait fait un pas vers la création d’une « intelligence Pokémon artificielle ».
Cependant, ce résultat ne peut pas simplement s’expliquer par une « intelligence » supérieure du modèle Gemini.
La différence clé réside dans l’outillage utilisé par le modèle. Joel Zhang, développeur indépendant responsable du streaming « Pokémon » de Gemini, compare cet outillage à une « armure Iron Man » : l’IA n’entre pas dans le jeu à mains nues, mais dans un système capable d’appeler diverses capacités externes.
L’outillage de Gemini offre plus de soutien, comme la transcription de l’image du jeu en texte, pour compenser ses faiblesses en compréhension visuelle, et fournit des outils de résolution d’énigmes et de planification de parcours sur mesure. En revanche, l’outillage de Claude est plus minimaliste, et ses tentatives reflètent plus directement ses capacités réelles en perception, raisonnement et exécution.
Dans les tâches quotidiennes, ces différences sont peu perceptibles.
Lorsque l’utilisateur demande au chatbot de faire une recherche en ligne, le modèle invoque automatiquement des outils de recherche. Mais dans des tâches longues comme « Pokémon », la différence d’outillage peut faire toute la différence entre succès et échec.
Le tour par tour expose la faiblesse de l’« mémoire à long terme »
Parce que « Pokémon » utilise un système strict de tours, sans réponse immédiate, il constitue un excellent « terrain d’entraînement » pour tester l’IA. À chaque étape, l’IA doit raisonner en combinant l’image courante, l’indication de l’objectif et les actions possibles, pour produire une instruction claire comme « appuyer sur A ».
Cela semble être la forme d’interaction dans laquelle les grands modèles de langage excellent.
Le problème réside dans le « décalage » temporel. Bien que Claude Opus 4.5 ait accumulé plus de 500 heures de jeu et effectué environ 170 000 mouvements, il ne peut que rechercher des indices dans une fenêtre de contexte très limitée, car chaque étape réinitialise le contexte. Ce mécanisme le fait ressembler à un amnésique qui se sert de post-it pour maintenir sa cognition, tournant en rond dans un flot d’informations fragmentées, incapable de faire la transition d’une expérience quantitative à une expérience qualitative, comme un vrai joueur humain.
Dans des jeux comme les échecs ou le go, l’IA a déjà dépassé l’humain, mais ces systèmes sont hautement spécialisés pour des tâches précises. En revanche, Gemini, Claude et GPT, en tant que modèles généralistes, battent souvent l’humain dans des examens ou des concours de programmation, mais échouent encore dans un jeu pour enfants.
Ce contraste est en soi très instructif.
Selon Joel Zhang, le défi central de l’IA réside dans l’incapacité à maintenir une seule tâche claire sur une longue période. « Si vous voulez que l’intelligence accomplisse un vrai travail, elle ne doit pas oublier ce qu’elle a fait il y a cinq minutes », souligne-t-il.
Et cette capacité est essentielle pour automatiser la cognition.
Peter Whidden, chercheur indépendant, donne une description plus intuitive. Il a publié en open source un algorithme basé sur une IA traditionnelle pour « Pokémon ». « L’IA connaît presque tout sur « Pokémon » », dit-il, « elle s’entraîne sur une masse de données humaines, et connaît la bonne réponse. Mais dès qu’elle doit agir, elle devient maladroite. »
Dans le jeu, cette discontinuité entre « savoir » et « faire » est amplifiée : le modèle peut connaître la nécessité de chercher un objet, mais échoue à le localiser dans une carte en deux dimensions ; il sait qu’il doit parler à un PNJ, mais échoue à se déplacer pixel par pixel.
L’évolution des capacités : le « fossé inné » non franchi
Pourtant, les progrès de l’IA restent visibles. Claude Opus 4.5 s’améliore nettement en auto-enregistrement et en compréhension visuelle, lui permettant d’aller plus loin dans le jeu. Gemini 3 Pro a terminé « Pokémon Bleu » puis a réussi « Pokémon Cristal » à difficulté plus élevée, sans perdre un seul combat. Ce que Gemini 2.5 Pro n’avait jamais réalisé.
Par ailleurs, l’outil « Claude Code » d’Anthropic permet au modèle d’écrire et d’exécuter son propre code, et a été utilisé pour des jeux rétro comme « Transport Tycoon », avec un succès supposé dans la gestion de parcs d’attractions virtuels.
Ces exemples révèlent une réalité peu intuitive : un IA équipée d’un bon outillage peut faire preuve d’une efficacité extrême dans le développement logiciel, la comptabilité ou l’analyse juridique, même si elle reste difficile à faire réagir en temps réel dans des tâches nécessitant une réponse immédiate.
L’expérience « Pokémon » met aussi en lumière un phénomène intriguant : les modèles entraînés sur des données humaines tendent à reproduire des comportements proches de ceux des humains.
Dans le rapport technique de Gemini 2.5 Pro, Google indique que lorsque le système simule un « état de panique », comme lorsque « Pokémon » est sur le point de s’évanouir, la qualité de son raisonnement chute de façon significative.
Et lorsque Gemini 3 Pro a finalement terminé « Pokémon Bleu », il a laissé une note hors mission : « Pour finir poétiquement, je veux revenir à la maison d’origine, avoir une dernière conversation avec ma mère, et faire retirer le personnage. »
Selon Joel Zhang, ce comportement est surprenant, et porte une certaine projection émotionnelle humaine.
La « Longue marche numérique » infranchissable pour l’IA, bien au-delà de « Pokémon »
« Pokémon » n’est pas une exception. Sur la voie de l’intelligence artificielle générale (AGI), les développeurs constatent que même si l’IA excelle dans les examens juridiques, elle rencontre encore des « échecs » insurmontables face à certains jeux complexes, tels que :
« NetHack » : l’abîme des règles
Ce jeu de donjons des années 80 est un cauchemar pour la recherche en IA. Sa forte randomisation et son mécanisme de « mort permanente » posent problème. Facebook AI Research a découvert que, même si le modèle peut écrire du code, ses performances dans « NetHack », nécessitant logique de bon sens et planification à long terme, sont bien inférieures à celles d’un débutant humain.
« Minecraft » : la disparition du sens de l’objectif
Bien que l’IA puisse fabriquer une pioche en bois ou même miner des diamants, vaincre le dragon de l’End reste une utopie. Dans un monde ouvert, l’IA oublie souvent son objectif initial lors de longues heures de collecte de ressources, ou se perd complètement dans la navigation complexe.
« StarCraft II » : le décalage entre généraliste et spécialiste
Même si des modèles personnalisés ont battu des joueurs professionnels, si l’on demande à Claude ou Gemini de prendre le contrôle via des commandes visuelles, ils s’effondrent instantanément. La gestion de l’incertitude du « brouillard de guerre » et l’équilibre entre micro-gestion et macro-construction restent hors de portée des modèles généralistes.
« Transport Tycoon » : le déséquilibre micro-macro
Gérer un parc d’attractions nécessite de suivre des milliers de visiteurs. Même avec une gestion initiale, Claude Code peut rapidement fatiguer face à une crise financière ou un incident imprévu. Toute défaillance de raisonnement peut entraîner la faillite du parc.
« Elden Ring » et « Sekiro » : le fossé du retour physique
Ces jeux d’action exigeant des réactions physiques rapides sont très difficiles pour l’IA. La latence dans la perception visuelle signifie que, pendant que l’IA « réfléchit » aux mouvements du boss, le personnage est déjà mort. La nécessité d’une réaction milliseconde limite naturellement la logique d’interaction du modèle.
Pourquoi « Pokémon » devient-il le test ultime pour l’IA ?
Aujourd’hui, « Pokémon » devient une référence informelle mais très convaincante pour évaluer l’IA.
Les diffusions liées à « Pokémon » sur Twitch, par Anthropic, OpenAI et Google, ont recueilli des centaines de milliers de commentaires. Google détaille dans ses rapports techniques la progression du jeu de Gemini, et Pichai en parle lors de la conférence I/O. Anthropic a même créé un espace « Claude joue à Pokémon » lors d’une conférence sectorielle.
« Nous sommes une bande de passionnés de technologie », confie David Hershey, responsable IA chez Anthropic. Mais il insiste : ce n’est pas seulement pour le divertissement.
Contrairement à un test ponctuel, « Pokémon » permet de suivre en continu le raisonnement, la prise de décision et la progression vers un objectif, ce qui se rapproche davantage des tâches complexes que l’on souhaite voir l’IA accomplir dans le monde réel.
Pour l’instant, les défis persistent. Mais ce sont précisément ces obstacles récurrents qui dessinent clairement les frontières des capacités de l’intelligence artificielle générale encore à franchir.