Google Research publie ReasoningBank : les agents IA apprennent des stratégies de raisonnement grâce à la réussite et à l’échec

Message de Gate News, 22 avril — Google Research a publié ReasoningBank, un cadre de mémoire d’agent qui permet à des agents pilotés par de grands modèles de langage d’apprendre en continu après leur déploiement. Le cadre extrait des stratégies universelles de raisonnement à partir d’expériences de tâches à la fois réussies et échouées, les stockant dans une banque de mémoire pour la récupération et l’exécution sur des tâches futures similaires. L’article associé a été publié à l’ICLR, et le code a été open-sourcé sur GitHub.

ReasoningBank améliore deux approches existantes : Synapse, qui enregistre des trajectoires d’action complètes mais dispose d’une transférabilité limitée en raison d’une granularité trop fine, et Agent Workflow Memory, qui n’apprend que des cas réussis. ReasoningBank apporte deux changements clés : stocker des « modèles de raisonnement » au lieu de « séquences d’action », chaque mémoire contenant des champs structurés pour le titre, la description et le contenu ; et intégrer des trajectoires d’échec à l’apprentissage. Le cadre utilise un modèle pour s’auto-évaluer sur les trajectoires d’exécution, transformant les expériences d’échec en règles anti-pièges. Par exemple, la règle « cliquer sur le bouton Charger plus lorsqu’il est visible » évolue vers « vérifier d’abord l’identifiant de la page actuelle, éviter les boucles de défilement infini, puis cliquer sur charger plus. »

L’article introduit également Memory-aware Test-time Scaling (MaTTS), qui alloue une puissance de calcul supplémentaire pendant l’inférence afin d’explorer plusieurs trajectoires et de stocker les résultats dans la banque de mémoire. L’expansion parallèle exécute plusieurs trajectoires distinctes pour la même tâche, en affinant des stratégies plus robustes grâce à une auto-comparaison ; l’expansion séquentielle affine itérativement une seule trajectoire, en stockant un raisonnement intermédiaire en mémoire.

Sur les tâches de navigateur WebArena et les tâches de codage SWE-Bench-Verified en utilisant Gemini 2.5 Flash comme agent ReAct, ReasoningBank a atteint un taux de réussite supérieur de 8,3 % sur WebArena et de 4,6 % sur SWE-Bench-Verified par rapport à une référence sans mémoire, en réduisant d’environ 3 le nombre moyen d’étapes par tâche. L’ajout de MaTTS avec expansion parallèle (k=5) a encore amélioré le taux de réussite sur WebArena de 3 points de pourcentage et réduit les étapes d’un supplément de 0,4.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

PicWe lance un portefeuille à agent IA avec gestion des clés sur l’appareil

PicWe annonce la version bêta publique de PicWe Wallet, un portefeuille de clés sur appareil doté d’agents IA, sans phrases de récupération. Il prend en charge des actifs multi-chaînes, des échanges, une automatisation accessible par l’IA et vise à unifier l’infrastructure RWA. PicWe a lancé la version bêta publique de PicWe Wallet, un portefeuille avec des agents IA qui stocke les clés sur l’appareil, supprime les phrases de récupération et maintient les opérations critiques localement. La bêta prend en charge la gestion d’actifs multi-chaînes, les échanges, et des paiements de frais basés sur les stablecoins tout en permettant des interactions programmables avec l’IA. Les initiatives plus larges de PicWe positionnent la plateforme comme une infrastructure unifiée pour les actifs du monde réel, permettant l’émission, la circulation, le règlement, les paiements transfrontaliers, la tokenisation et la coordination de la chaîne d’approvisionnement pour des cas d’usage en entreprise.

GateNewsIl y a 16m

Hugging Face ouvre en open source ml-intern, un agent IA pour la recherche autonome en ML

Projet open source ml-intern, l’agent autonome de recherche en ML de Hugging Face qui lit des articles, organise des données, entraîne, évalue et itère à travers la science, la médecine et les mathématiques. Résumé : ml-intern de Hugging Face est un agent autonome de recherche en ML open source qui lit des articles, sélectionne et organise des jeux de données, s’entraîne sur des GPU locaux ou cloud, évalue les résultats et itère pour améliorer. Construit sur smolagents avec des interfaces CLI et web, il navigue entre arXiv / HF Papers, HF Hub et HF Jobs. Les démonstrations couvrent la science, la médecine et les mathématiques, montrant une automatisation de bout en bout et des gains de performance.

GateNewsIl y a 20m

Le professeur de Tsinghua Dai Jifeng lance Naive.ai et lève environ $300M à une valorisation de $800M

Message de Gate News, 22 avril — Dai Jifeng, professeur associé au département de génie électronique de l’Université Tsinghua, a fondé Naive.ai, une société axée sur l’entraînement post-modèle en open source et les agents IA. La startup a levé environ $300 millions, avec une valorisation estimée à 80$

GateNewsIl y a 1h

AWS Expands Multi-Agent AI Workflows, Supports Claude Opus 4.7 on Bedrock

Gate News message, April 22 — Amazon Web Services announced expansion of its agentic AI initiatives through multi-agent workflows, supporting Anthropic's Claude Opus 4.7 on Amazon Bedrock to help customers move beyond generative AI pilots. The company is expanding partner relationships as customers

GateNewsIl y a 1h

0G Labs s’associe à Alibaba Cloud pour permettre l’accès aux agents IA en chaîne au modèle Qwen

Message de Gate News, 22 avril — 0G Labs a annoncé un partenariat avec Alibaba Cloud afin de permettre aux agents IA d’invoquer directement le modèle de langage à grande échelle Qwen d’Alibaba en chaîne via l’infrastructure blockchain de 0G. La collaboration marque un changement des paradigmes d’accès à l’IA, passant d’approches basées sur des API à une infrastructure d’IA programmable et tokenisée, dans laquelle les agents IA peuvent appeler Qwen pour réaliser l’inférence directement sur le réseau 0G, avec une vérification assurée par 0G.

GateNewsIl y a 3h

0G intègre Alibaba Cloud Qianwen LLM, l’agent IA on-chain obtient pour la première fois un accès aux modèles de grande taille à vocation commerciale

La Fondation 0G a annoncé le 21 avril un partenariat officiel avec Alibaba Cloud, afin d’intégrer le modèle de langage de grande taille Qianwen (Qwen) dans une infrastructure décentralisée, permettant ainsi aux agents IA d’appeler directement des LLM de niveau commercial depuis l’environnement on-chain. Les développeurs pourront utiliser les fonctionnalités d’inférence de Qianwen via un mécanisme d’accès contrôlé par des jetons, convertissant efficacement les appels aux LLM en opérations mesurables sur la chaîne, faisant de Qianwen l’un des principaux LLM commerciaux parmi les premiers à être intégrés dans le cadre de lancement des agents décentralisés.

MarketWhisperIl y a 4h
Commentaire
0/400
Aucun commentaire