智能体自主进化技能从失败中学习超越人类编程_AI热点日报

智能体自主进化技能从失败中学习超越人类编程

类型：热点整理2026-05-19

智能体常因无法从自身错误中学习而受限。《EvolveR》提出新方法，使智能体能从成败轨迹中自动提炼可复用经验，形成内部“认知技能”。该系统通过闭环维护经验库，并利用强化学习优化检索与应用，在问答任务中表现优于基线。研究表明，自我总结的经验比外部技能更有效。

过去一年，智能体（Agent）技术取得了突破性进展，其核心能力主要体现在两大方面：学会调用各类工具，以及掌握预设的技能（Skill）。然而，一个根本性的发展瓶颈依然存在：当前的智能体普遍缺乏从自身错误中学习并实现持续进化的能力。

目前，智能体所依赖的技能大多来源于外部——由工程师手动编码、社区贡献或通过插件市场安装。这种模式带来了三个显著的挑战：首先，技能库的增长严重依赖人类工程师的持续投入，扩展性受限；其次，外部技能的质量参差不齐，稳定性难以保证；最后，这些外部技能与智能体自身的决策逻辑和策略可能不完全匹配，容易导致执行效率低下或决策冲突。

那么，智能体能否像人类一样，从亲身实践中总结经验教训，实现自主进化与能力提升？近期，一篇被顶级机器学习会议ICML 2026接收的论文《EvolveR》，为这一问题提供了一个极具启发性的创新解决方案。

这项前沿研究致力于让智能体摆脱被动安装外部技能的局限，转而从自身成功与失败的任务轨迹中，自动提炼、蒸馏出可复用的“经验原则”。这些内生的经验能在后续的相似任务中被智能检索、灵活应用并不断强化，从而驱动智能体实现真正的自主成长与持续优化。

△EvolveR与现有智能体学习范式对比图

简而言之，EvolveR聚焦于智能体发展的下一个关键跃迁：从“会使用工具和技能”进阶到“能从自身经验中生长出新的认知技能”。

EvolveR核心机制：将交互轨迹蒸馏为智能体的“认知技能”

EvolveR的核心思想非常直观且深刻：智能体在每次完成任务后，不应仅仅生成一堆日志文件便结束；它更应该具备从这些交互日志中，主动提炼出对未来任务具有普适性价值的“经验策略”的能力。

为了实现这一目标，EvolveR为智能体设计了一个完整的、自我驱动的闭环生命周期：

在线交互与执行：智能体面对新任务时，同步查询外部知识库和内部经验库，生成完整的推理与执行轨迹。
离线自蒸馏与总结：在参数冻结状态下，智能体回顾自己成功与失败的轨迹，主动归纳出简洁、通用、可迁移的经验策略。
经验库动态维护：系统对新产生的经验进行语义去重、合并优化，并基于动态效用评分机制进行筛选与淘汰，确保只保留高效、核心的经验。
策略进化与学习：利用强化学习算法训练模型，使其学会在恰当的时机精准检索并有效应用这些内部经验，优化决策流程。

这里所定义的“经验”，并非传统的工具插件或API，而更像是一种内化的“认知技能”或高阶思维模式。例如：

当遇到需要比较分析的问题时，应先并行收集两个对象的关键信息，再进行系统性对比。
在判断影视作品中的人物关系时，不能仅凭角色名称联想演员，必须查证具体的角色描述或剧情上下文。
如果一次网络搜索返回的结果不充分，不应机械重复相同查询，而应尝试改写关键词、变换搜索角度或使用高级搜索语法。

关键在于，这些宝贵的经验并非由外部教师模型或人类工程师强行灌输，而是智能体从自身的成败实践中主动归纳、抽象出来的，与自身策略高度对齐。

△EvolveR完整生命周期示意图

构建可筛选、可评分、可进化的智能经验库

许多现有的智能体记忆系统只是简单地保存原始轨迹或进行自然语言反思。而EvolveR则更强调对经验库的主动“维护”与“管理”。

在EvolveR框架中，每一条经验都会记录其被调用的次数和成功应用的次数，系统据此计算一个动态的效用分数。分数持续低于阈值的低效或过时经验会被自动“剪枝”淘汰，语义高度重复的经验则会被合并精简。这套机制确保了智能体的“经验大脑”始终保持轻盈、高效与纯净，避免被无效、冗余或过时的信息拖累性能。

这一点对于当前日益臃肿的智能体技能生态尤为重要。当智能体安装的外部技能和积累的内部记忆越来越多时，核心挑战将不再是“有没有经验可用”，而是：哪些经验在当前上下文下真正有效？哪些经验已经过时？哪些经验彼此冗余可以合并？哪些经验甚至可能产生误导？EvolveR的经验库维护机制正是为了解决这些问题。

利用强化学习让智能体学会“如何善用经验”

EvolveR与普通经验检索系统的根本区别在于：它不只是简单地将经验文本拼接到模型的上下文窗口中。在在线交互阶段，智能体可以通过特定的“检索”动作，主动查询内部经验库，再结合外部知识查询的结果，进行综合推理并最终给出答案。

随后，研究团队使用GRPO等强化学习算法，对这些在经验指导下的行为轨迹进行优化训练。其奖励函数的设计颇具巧思：它不仅评估最终答案的正确性（结果奖励），还会精细评估推理格式的规范性、经验检索的合理性以及知识检索的有效性（格式奖励）。

如果仅依赖最终答案对错这种“稀疏奖励”，智能体很难学会“如何善用经验”这类复杂的中间过程行为。为此，EvolveR设计了一套复合奖励函数，将“做对事”（结果正确）和“会做事”（过程合理）区分开来考核：

结果奖励：基于最终答案与标准答案的匹配度进行计算。
格式奖励：
- 思考步数奖励：鼓励智能体进行适度深度的推理，但同时防止其陷入“无限反思”的循环，强制其学会在思考充分后及时采取行动。
- 搜索多样性奖励：明确激励智能体同时调用内部经验和外部知识，进行综合判断，避免偏废其一，实现经验与知识的协同。

通过这样的训练，模型学到的不仅仅是“正确答案是什么”，更重要的是——在什么具体情境下应该检索经验、应该优先检索哪些经验、以及如何将检索到的经验转化为有效的行动步骤。这使得EvolveR区别于传统的RAG（检索增强生成）或简单的记忆系统：RAG主要解决的是“知识缺失”问题，而EvolveR旨在解决更深层次的“经验缺失”与“经验应用”问题。

性能验证：在多跳问答任务上超越Search-R1等强基线模型

论文在7个复杂的问答基准数据集上对EvolveR进行了全面验证。无论是在Qwen2.5-3B还是7B参数规模的模型上，EvolveR都取得了最优的平均性能表现。

相较于思维链（CoT）、RAG、监督微调（SFT）、拒绝采样（Rejection Sampling）以及Search-R1等先进的基线方法，EvolveR展现出更强的整体性能与鲁棒性。尤其在需要多步推理的复杂多跳问答任务和领域外泛化任务上，其表现更为稳定和出色。

研究还发现了一个关键现象：当模型规模较小时（如1B参数），借助GPT-4o-mini等更强的外部教师模型来帮助总结经验，效果更好；但当模型参数扩展到3B规模时，智能体自己总结出的经验原则，其实际效果反而超过了外部教师总结的原则。

这揭示了一个重要洞见：对智能体而言，最有效的经验未必来自最强的外部教师，而可能源于与自身策略最匹配的“自我经验”。作者将其解释为一种“认知对齐”——智能体通过自我蒸馏得到的经验原则，更贴合其自身的能力边界、推理习惯和知识表示，因此在实战中更容易被有效调用和执行。

这一发现对当前的智能体技能生态也具有深远启发：未来的智能体技能，可能不再全部依赖于人类工程师编写，将有相当一部分源自智能体自身在长期、大量执行任务过程中积累的轨迹与经验。

从“工具扩展”到“经验进化”：智能体自主学习的未来

过去一年的智能体发展浪潮已经证明，只要赋予大语言模型适当的工具、权限和清晰的工作流，它就能完成越来越多真实世界的复杂任务。

但这同时也暴露了新的能力天花板：智能体的能力增长，不能永远依赖人类持续不断地编写技能、安装插件、调整提示词。正如LangChain等框架近期所指出的，智能体的持续学习不仅发生在模型权重微调层面，同样可以发生在任务编排和上下文记忆层面；而智能体与环境的交互轨迹，正是这些学习过程最核心的燃料。

EvolveR指出了一个更加自主和可持续的进化方向：让智能体将自身的成败实践转化为可复用、可进化的内部经验，再通过强化学习，将“如何智能地运用经验”内化为其核心决策策略的一部分。

从这个视角看，EvolveR不仅仅是一种先进的智能体记忆或学习方法，它更是面向后OpenClaw/Claude Code时代的一个关键问题探索：

当智能体拥有了强大的工具箱和基础能力之后，它能否开始为自己积累经验，实现真正的、内生的成长？

EvolveR的初步实验给出了肯定的答案。这或许是智能体从“能够执行任务”迈向“越执行越聪明”的关键一步，为构建具备终身学习能力的自主智能系统开辟了新的路径。

来源：https://www.51cto.com/article/843589.html

skill

延伸阅读

补充最近整理过的热点入口。