L’intelligence incarnée (Embodied AI) est en train de franchir un tournant décisif. Ces derniers jours, le robotiqueur chinois Yuanbot a publié Genie Envisioner World Simulator 2.0 (GE-Sim 2.0), dans le but de faire évoluer le World Model (modèle du monde) : le faire passer d’un simple outil pour comprendre l’environnement à un simulateur du monde (World Simulator) capable d’exécuter, d’entraîner et d’optimiser directement des robots.
Si vous ne voyez pas encore à quel point c’est crucial, commencez par regarder les failles structurelles de l’architecture LLM : du point de vue de l’entraînement, les LLM existants ne font qu’anticiper le contexte en fonction d’immenses corpus; ils peuvent savoir que ces mots « une pomme tombe » apparaissent souvent ensemble, mais ils ne comprennent pas réellement les relations causales de la gravité ou du monde physique.
C’est aussi pour cela que des scientifiques comme Yang LeCun et Fei-Fei Li se sont investis dans la course au World Model. Lorsque l’IA disposera de capacités de compréhension d’environnements 3D et de prédiction physique, cette technologie deviendra le « cerveau numérique » des « IA physiques » (Physical AI) comme les robots autonomes, la conduite automatisée et la fabrication intelligente. Ainsi, la feuille de route du World Model affirme que les robots seront un porteur extrêmement important. Aujourd’hui, l’entrée dans la danse du constructeur de robots humanoïdes Yuanbot, symbolise l’avant-garde de la reconquête de la Chine par le matériel.
Le président du conseil d’administration de TSMC, Wei Zhejia, avait déjà déclaré : si l’on regarde la Chine continentale, ils fabriquent des robots qui sautent, qui sautillent et qui bondissent. Ce n’est pas utile, c’est juste fait pour être beau. Il a souligné que l’essentiel est de permettre au « cerveau » du robot de fonctionner, et que qui le fait ? Nvidia (Nvidia), AMD (AMD) et une foule d’entreprises américaines; mais 95% des cerveaux sont fabriqués par TSMC. Le goulot d’étranglement du développement de GE-Sim 2.0 reste en jeu, fortement lié au développement des modèles en Chine.
La feuille de route du World Model affirme que les robots sont l’élément clé
Les LLM dominants actuels s’appuient sur d’immenses corpus et des relations statistiques pour comprendre le contexte et prédire le mot suivant. Ils peuvent savoir que les mots « une pomme tombe » apparaissent souvent ensemble, mais ils ne comprennent pas réellement les relations causales de la gravité ou du monde physique.
Ce modèle excelle dans la génération de texte, l’assistance à la programmation ou les tâches de question-réponse. Toutefois, dans des scénarios qui exigent de comprendre la structure du monde réel, de raisonner les relations causales et de faire de la planification à long terme, il subsiste des limites fondamentales. Le problème encore plus grave, c’est que la source de données s’assèche progressivement. L’entraînement des LLM dépend fortement de données humaines de haute qualité, et ces dernières années, l’industrie a commencé à avertir : les textes humains disponibles pourraient être consommés d’ici quelques années. À ce moment-là, comme consanguin à l’extrême qui entraîne des défauts héréditaires, le modèle finit par s’éloigner progressivement de la réalité et par voir ses performances se dégrader.
(Analyse approfondie : les LLM ont-ils des défauts ? Pourquoi Yang LeCun mise sur la voie du World Model avec l’AMI)
C’est aussi pour cela que, ces dernières années, deux figures majeures de la recherche en IA, Yang LeCun et Fei-Fei Li, surnommée la « marraine de l’IA », ont toutes deux choisi de parier sur une nouvelle génération d’architecture d’IA appelée World Model (modèle du monde).
À l’époque, l’auteur avait déclaré : en regardant plus loin, lorsque l’IA disposera de capacités de compréhension d’environnements 3D et de prédiction physique, cette technologie deviendra le « cerveau numérique » des « IA physiques » (Physical AI) telles que les robots autonomes, la conduite automatisée et la fabrication intelligente. Par conséquent, la feuille de route du World Model affirme que les robots seront un porteur extrêmement important. Aujourd’hui, l’entrée du constructeur de robots humanoïdes Yuanbot dans la partie symbolise l’avant-garde de la reconquête par le matériel en Chine.
Le président du conseil d’administration de TSMC, Wei Zhejia, s’est exprimé sans détour sur le développement des robots et des semi-conducteurs : si l’on regarde la Chine continentale, ils font des robots qui sautent et bondissent sans arrêt. Cela ne sert à rien, c’est juste pour faire joli. Il a indiqué que l’essentiel est que le cerveau du robot puisse fonctionner; et quant à savoir qui le fait : Nvidia (Nvidia), AMD (AMD) et une multitude d’entreprises américaines, mais 95% des cerveaux sont fabriqués par TSMC.
(Wei Zhejia de TSMC se moque : les robots chinois sautillent, ce n’est qu’un coup d’apparence—la vraie clé vient toujours de Nvidia)
Évolution du World Model : de la compréhension du monde à l’apprentissage dans le monde
Au cours des dernières années, le World Model a été considéré comme une technologie clé pour que l’IA comprenne la réalité. Grâce aux images, au langage et aux données de capteurs, le modèle peut prédire les changements de l’environnement, donnant aux robots des capacités de décision de base.
Mais la percée centrale de GE-Sim 2.0 ne réside pas seulement dans la compréhension du monde : elle consiste à faire en sorte que, dans un « monde généré par le modèle », le système d’apprentissage et d’action intègre l’action (Action) comme variable centrale. On passe ainsi des prédictions d’état traditionnelles à une boucle complète :
State
Action
State Evolution
Cela signifie que les robots ne se contentent plus d’observer et de réagir : ils peuvent essayer activement dans un environnement de simulation, s’optimiser en autonomie et apprendre en continu. Ce changement permet à World Model d’évoluer d’un « modèle cognitif » vers une « infrastructure d’entraînement ».
GE-Sim 2.0 : faire « évoluer » les robots dans un monde virtuel
GE-Sim 2.0 est défini comme un ensemble de « simulateurs de monde incarnés ». Son objectif central est de résoudre trois goulots d’étranglement majeurs de l’entraînement dans le réel : des coûts trop élevés, un manque de données et une difficulté à passer à l’échelle. En générant des environnements via des modèles, le système peut entraîner massivement des robots sans dépendre du monde réel.
Sur le plan technique, GE-Sim 2.0 intègre trois capacités clés : d’abord, la « génération d’images pilotée par l’action ». Le modèle peut générer les images futures correspondantes à partir des actions du robot, tout en conservant une cohérence multi-angles, y compris le point de vue de la tête et les perspectives d’opération des mains gauche et droite.
Ensuite, il y a la modélisation de la proprioception : non seulement simuler les images externes, mais aussi prédire les articulations et l’état des mouvements du robot lui-même, afin que les décisions se rapprochent davantage du monde physique réel.
Troisièmement, il y a « l’évaluation automatique des tâches ». Grâce à un reward model (modèle de récompense) intégré, le système peut déterminer automatiquement si une tâche est accomplie, par exemple « placer un objet bleu dans une boîte rouge », puis fournir un retour, qui est directement utilisé pour l’apprentissage par renforcement. Cela permet au robot d’exécuter une boucle de rétroaction complète dans l’environnement de simulation :
GE-Sim 2.0 sait déjà générer des vidéos « à l’échelle de minutes » avec stabilité
Par rapport aux modèles précédents capables uniquement de générer de courts segments, GE-Sim 2.0 permet désormais de générer des vidéos stables « à l’échelle de minutes », et prend en charge des simulations de tâches sur des durées longues. En même temps, grâce à l’entraînement sur de larges volumes de données réelles (données d’opérations à distance, de déploiement et d’interactions), le modèle présente de meilleures capacités de généralisation entre différents scénarios et tâches. Ce point est particulièrement crucial pour les robots humanoïdes : dans le monde réel, les opérations sont très variables, et l’entraînement ne peut pas reposer uniquement sur des scénarios fixes.
L’apparition de World Simulator signifie que les robots peuvent « s’entraîner indéfiniment » dans le monde virtuel. Cela entraînera deux changements structurels : premièrement, les coûts d’entraînement chuteront fortement. Deuxièmement, la vitesse d’itération des capacités augmentera de façon exponentielle.
Yuanbot : une nouvelle force dans les robots humanoïdes en Chine
Yuanbot a été fondée en 2023 par Peng Zhihui, le « prodige » de Huawei, et se concentre sur le domaine de l’intelligence incarnée, à la croisée de l’IA et de la robotique.
Les produits phares de l’entreprise comprennent :
la série de robots humanoïdes « Expedition »
le système de robots « Lingxi »
le grand modèle généraliste GO-1
À l’heure actuelle, l’entreprise a déjà achevé plusieurs tours de financement et a reçu des investissements d’institutions telles que Sequoia China et Hillhouse Capital; elle est considérée comme un acteur important dans le domaine des robots humanoïdes en Chine, dans une logique de concurrence avec la société Unitree.
Cet article « Yuanbot GE-Sim 2.0 : générer un monde avec World Model, l’ennemi de Unitree propulse les robots humanoïdes vers l’auto-évolution » est apparu pour la première fois sur ABMedia.