首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习

「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习

热心网友
97
转载
2025-10-13

这几天,关于「微调已死」的言论吸引了学术圈的广泛关注。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

一篇来自斯坦福大学、SambaNova、UC 伯克利的论文提出了一种名为Agentic Context Engineering(智能体 / 主动式上下文工程)的技术,让语言模型无需微调也能实现自我提升!

其实,在更早的时候,谷歌一篇名为《ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory》的论文提出了一个与 Agentic Context Engineering 类似的概念 ——ReasoningBank,用于智能体系统的创新记忆框架,从智能体自身判断的成功和失败经验中提炼并组织记忆项,无需真实标签。

如图 1 所示,利用ReasoningBank不仅可以捕捉成功中的有效策略,还能从失败中提取重要的预防教训,将这些内容抽象成一系列可操作的原则。这个过程在一个闭环中运行:当面对新任务时,智能体从 ReasoningBank 中检索相关记忆来指导其行动。随后,新的经验被分析、提炼并重新整合回 ReasoningBank,使得智能体能够不断进化并提升其战略能力。

通过将 ReasoningBank 作为强大的经验学习者,谷歌研究了经验扩展,以建立记忆与测试时扩展之间的强大协同效应。谷歌并不通过增加更多任务来扩展经验的广度,而是通过深入探索每个单一任务来扩展经验的深度。

此外,谷歌引入了记忆感知的测试时扩展(MaTTS),在并行和顺序设置下都进行了应用,通过生成多样的探索来提供对比信号,使 ReasoningBank 能够合成更具普遍性的记忆。

最终,在记忆与测试时扩展之间实现了协同效应:高质量的记忆将扩展引导到更有前景的路径,而丰富的经验则进一步锤炼出更强的记忆。这种正反馈循环使得基于记忆的经验扩展成为智能体的一个新扩展维度。

论文地址:https://arxiv.org/pdf/2509.25140

对于谷歌开发的这种能实时从自身错误中学习的 AI,网友纷纷看好。

方法概览

下图为 ReasoningBank 整体框架,其中经验被提炼成结构化的记忆项,包含标题、描述和内容。对于每个新任务,智能体从中检索相关项与环境进行互动,并从成功和失败的轨迹中构建新的记忆项。这些记忆项随后被整合到 ReasoningBank 中,形成一个闭环的记忆过程。

其中,ReasoningBank 包含了以下几个关键组件:

记忆结构。ReasoningBank 中的记忆项是从过去的经验中设计和提炼出的结构化知识单元,它们抽象了低级执行细节,同时保留了可转移的推理模式和策略。每个记忆项包含三个部分:(i) 标题,作为简洁的标识符,总结核心策略或推理模式;(ii) 描述,提供记忆项的简短一句话总结;(iii) 内容,记录从过去经验中提炼出的推理步骤、决策理由或操作见解。提取出的记忆项既具有人类可理解性,又具备机器可用性,有助于高效使用和与智能体的集成。

ReasoningBank 与智能体的集成。配备 ReasoningBank 的智能体可以从一个精心挑选的可转移策略池中汲取经验来指导决策。这使得智能体能够回忆有效的见解,避免以前观察到的陷阱,并更稳健地适应未见过的查询。集成过程分为三个步骤:(i) 记忆检索,(ii) 记忆构建,(iii) 记忆整合。

MaTTS:记忆感知的测试时扩展。ReasoningBank 与测试时扩展的直接结合如图 3 (a) 所示,其中更多的轨迹被独立地转换为更多的记忆项。不过,这种基础方法并不理想,因为它没有利用来自同一问题上冗余探索所产生的对比信号,这限制了测试时扩展所带来的性能优势。为此,谷歌提出了 MaTTS,它是测试时扩展与 ReasoningBank 的全新集成。与基础方法不同,MaTTS 刻意从扩展过程中生成的大量成功和失败轨迹中学习,以便更有效地策划记忆。谷歌为 MaTTS 设计了两种互补的实现方式:并行扩展和顺序扩展,如图 3 (b) 和 3 (c) 所示。

并行扩展。在并行设置中,谷歌在检索到的记忆项的指导下,为同一查询生成多个轨迹。通过对不同轨迹进行比较,智能体可以识别一致的推理模式,同时过滤掉虚假的解决方案。这个过程通过单一查询的多次试验促使多样化的探索,从而实现更可靠的记忆策划。

顺序扩展。在顺序扩展中,谷歌在初步完成后,迭代地在单一轨迹内完善推理,遵循自我精炼的原则。在这个过程中,自我精炼中生成的中间笔记也被用作宝贵的记忆信号,因为它们捕捉了推理尝试、修正和见解,这些内容可能不会出现在最终的解决方案中。

实验结果

谷歌在具有挑战性的基准测试上进行了广泛的实验,包括了网页浏览(WebArena、Mind2Web)和软件工程(SWE-Bench-Verified)任务。

表 1、2、3 分别展示了 ReasoningBank 在 WebArena、Mind2Web 和 SWE-Bench-Verified 上的评估结果,表明了在有效性(相对提高高达 34.2%)和效率(减少 16.0% 的交互步骤)上均优于基准方法。

特别地,ReasoningBank 与 MaTTS 的协同效果最好,使其成为基于记忆的经验扩展的关键组成部分。谷歌在 Webarena-Shopping 子集上实验了 MaTTS 与 Gemini-2.5-flash 的结合。默认下,MaTTS 集成了 ReasoningBank,但它也可以使用其他记忆机制。

为了研究整体的扩展效果,谷歌进行了以下基准测试:(i) 没有记忆机制的 MaTTS(MaTTS w/o memory),这代表了没有记忆机制的扩展设置;(ii) 没有聚合的 MaTTS(MaTTS w/o aggregation);(iii) MaTTS,用于展示与扩展因子 k 相关的效果。值得注意的是,k = 1 是没有扩展的设置。

结果如图 4 所示,表明并行扩展和顺序扩展都能提升性能。

更多实验结果请参阅原论文。

来源:https://36kr.com/p/3507002906778503
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

如何制作极具商务高级感的路演PPT 利用Gamma一键定制极简黑金视觉模版
AI
如何制作极具商务高级感的路演PPT 利用Gamma一键定制极简黑金视觉模版

说实话,每次看到别人在商务路演时拿出那种设计精良、气质高端的PPT,你是不是也暗自羡慕过?但咱们既不是专业设计师,又抽不出大把时间琢磨排版配色——这种困境我太懂了。好在现在有了Gamma这样的智能平台,它内置的模板系统能让你快速产出专业级PPT。今天我就以最经典的极简黑金风格为例,带你走一遍具体操作

热心网友
04.21
苹果换帅要大变天了?盘和林:库克不会完全脱离苹果决策层
科技数码
苹果换帅要大变天了?盘和林:库克不会完全脱离苹果决策层

苹果换帅:库克转任执行董事长,硬件负责人特努斯接任CEO 封面新闻记者 易弋力 科技界的一则重磅人事变动,终于在当地时间4月20日尘埃落定。美国苹果公司正式宣布,任命公司内部元老、长期执掌硬件业务的约翰·特努斯为下一任首席执行官,接替自2011年起便掌舵公司的蒂姆·库克。与此同时,苹果公司也确认,库

热心网友
04.21
《三角洲行动》长弓溪谷藏宝堆全点位
游戏攻略
《三角洲行动》长弓溪谷藏宝堆全点位

三角洲行动长弓溪谷藏宝堆位置全攻略 各位特战队员,S9赛季全新登场的“藏宝堆”你们都收集齐了吗?这并非普通的地形装饰,而是地图上带有独特牛角标记的珍贵容器。其背景源于阿萨拉人在收藏大师马苏德引领下开展的祈福仪式,为《三角洲行动》的战场探索增添了丰富的趣味性与文化深度。 《三角洲行动》长弓溪谷藏宝堆全

热心网友
04.21
《刺客信条》多人游戏新作透露定位!聚焦多人PVP!
游戏资讯
《刺客信条》多人游戏新作透露定位!聚焦多人PVP!

育碧近日透露,《刺客信条》系列的全新多人作《刺客信条CODENAME INVICTUS》正在稳步开发中 《刺客信条》的粉丝们,准备好迎接一次碘伏性的体验了吗?育碧不久前释放了一个重磅消息:系列的全新多人游戏《刺客信条CODENAME INVICTUS》正在稳步推进中。这一次,开发团队将重心完全转向了

热心网友
04.21
学科网怎么注册账号_学科网注册账号详细步骤
手机教程
学科网怎么注册账号_学科网注册账号详细步骤

一、访问学科网官网并进入注册页面 想用学科网的各种教学资源,第一步得有个自己的账号。这事儿得从官网走最靠谱,毕竟现在各种山寨网站不少,走错了门,不光注册不成,还可能碰到麻烦。我建议你直接打开浏览器,手动输入www zxxk com这个地址,这样能确保万无一失。 进来之后别眼花,首页内容挺多的。你直接

热心网友
04.21