谷歌研究发布 ReasoningBank:AI 智能体从成功与失败中学习推理策略

Gate 新闻消息,4月22日——谷歌研究发布了 ReasoningBank,这是一个智能体记忆框架,使基于大型语言模型的智能体能够在部署后持续学习。该框架从成功和失败的任务经验中提取通用推理策略,并将其存储在记忆库中,以便在未来相似任务中检索与执行。相关论文发表于 ICLR,代码已在 GitHub 上开源。

ReasoningBank 在两种现有方法的基础上进行了改进:Synapse 会记录完整的行动轨迹,但由于粒度较细,迁移能力有限;Agent Workflow Memory 只从成功案例中学习。ReasoningBank 做出了两项关键改变:存储“推理模式”而不是“行动序列”,并且每条记忆包含用于标题、描述和内容的结构化字段;将失败轨迹纳入学习。该框架使用一个模型对执行轨迹进行自我评估,将失败经验转化为反陷阱规则。例如,规则“看到就点击‘加载更多’按钮”会演化为“先验证当前页面标识符,避免陷入无限滚动循环,然后点击加载更多”。

论文还提出了 Memory-aware Test-time Scaling (MaTTS),它会在推理期间分配额外计算,用于探索多条轨迹并将发现存储到记忆库中。并行扩展会为同一任务运行多个不同的轨迹,通过自我对比来进一步完善更稳健的策略;串行扩展则会对单条轨迹进行迭代细化,并将中间推理存入记忆。

在使用 Gemini 2.5 Flash 作为 ReAct 智能体的 WebArena 浏览任务以及 SWE-Bench-Verified 编码任务中,ReasoningBank 相比没有记忆的基线,在 WebArena 上成功率提高了 8.3%,在 SWE-Bench-Verified 上提高了 4.6%,同时将每个任务的平均步骤数减少了约 3。将 MaTTS 与并行扩展结合((k=5))后,WebArena 的成功率还进一步提升了 3 个百分点,并且步骤数额外减少了 0.4。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

微软发布 AI 代理商务基础设施:出版商市场、商户协议和广告工具

Gate News 消息,4月22日——微软的 AI 变现副总裁 Tim Frank 宣布了一系列面向“agentic web”时代的商业基础设施更新,旨在让出版商、商户和广告主在 AI 代理代表用户做出采购决策时,依然能够被发现并进行交易,

GateNews1 分钟前

NeoCognition 融资 $40M 用于在岗学习 AI 代理的种子轮

Gate 新闻消息,4月22日——人工智能研究实验室 NeoCognition 宣布完成了一笔 $40 百万美元的种子轮融资,脱离隐身模式。该公司由俄亥俄州立大学副教授 Yu Su 以及 Xiang Deng 和 Yu Gu 创立,总部位于美国加利福尼亚州帕洛阿尔托。该轮融资……

GateNews17 分钟前

PicWe Launches AI Agent Wallet with On-Device Key Management

PicWe announces public beta of PicWe Wallet, an AI-agent-enabled, on-device key wallet with no recovery phrases. It supports multi-chain assets, swaps, AI-accessible automation, and aims to unify RWA infrastructure. PicWe has launched the public beta of PicWe Wallet, an AI Agent-enabled wallet that stores keys on-device, eliminates recovery phrases, and keeps critical operations local. The beta supports multi-chain asset management, swaps, and stablecoin-based fees while enabling programmable AI interactions. Broader PicWe initiatives position the platform as unified infrastructure for real-world assets, enabling issuance, circulation, settlement, cross-border payments, tokenization, and supply-chain coordination for enterprise use cases.

GateNews1小时前

Hugging Face 开源 ml-intern:用于自主机器学习研究的 AI 代理

开源的 ml-intern:Hugging Face 的自主机器学习(ML)研究代理,它会阅读论文、整理数据、训练、评估,并在科学、医学和数学领域持续迭代。 摘要:Hugging Face 的 ml-intern 是一个开源的自主机器学习研究代理,能够阅读论文、整理数据集,在本地或云端 GPU 上进行训练、评估结果,并迭代改进。它基于 smolagents,提供 CLI 和网页界面,能够浏览 arXiv/HF Papers、HF Hub 和 HF Jobs。演示覆盖科学、医学和数学,展示端到端自动化以及性能提升。

GateNews1小时前

清华教授戴济峰推出Naive.ai,融资约$300M ,估值$800M

Gate 新闻消息,4月22日——清华大学电子工程系副教授戴济峰创立了Naive.ai,该公司专注于开源模型的后训练以及AI代理。该初创公司已筹集约$300 百万,预计估值为$80

GateNews2小时前

AWS 扩展多智能体 AI 工作流,并支持在 Bedrock 上使用 Claude Opus 4.7

Gate News 消息,4月22日——亚马逊网络服务宣布通过多智能体工作流扩展其代理式 AI 计划,支持在 Amazon Bedrock 上使用 Anthropic 的 Claude Opus 4.7,帮助客户超越生成式 AI 试点。该公司正在扩大合作伙伴关系,因为客户正从单一 AI 工具转向将多个专门化智能体连接起来的系统。

GateNews2小时前
评论
0/400
暂无评论