智能体自主进化技能从失败中学习超越人类编程
过去一年,智能体(Agent)技术取得了突破性进展,其核心能力主要体现在两大方面:学会调用各类工具,以及掌握预设的技能(Skill)。然而,一个根本性的发展瓶颈依然存在:当前的智能体普遍缺乏从自身错误中学习并实现持续进化的能力。
目前,智能体所依赖的技能大多来源于外部——由工程师手动编码、社区贡献或通过插件市场安装。这种模式带来了三个显著的挑战:首先,技能库的增长严重依赖人类工程师的持续投入,扩展性受限;其次,外部技能的质量参差不齐,稳定性难以保证;最后,这些外部技能与智能体自身的决策逻辑和策略可能不完全匹配,容易导致执行效率低下或决策冲突。
那么,智能体能否像人类一样,从亲身实践中总结经验教训,实现自主进化与能力提升?近期,一篇被顶级机器学习会议ICML 2026接收的论文《EvolveR》,为这一问题提供了一个极具启发性的创新解决方案。

这项前沿研究致力于让智能体摆脱被动安装外部技能的局限,转而从自身成功与失败的任务轨迹中,自动提炼、蒸馏出可复用的“经验原则”。这些内生的经验能在后续的相似任务中被智能检索、灵活应用并不断强化,从而驱动智能体实现真正的自主成长与持续优化。

△EvolveR与现有智能体学习范式对比图
简而言之,EvolveR聚焦于智能体发展的下一个关键跃迁:从“会使用工具和技能”进阶到“能从自身经验中生长出新的认知技能”。
EvolveR核心机制:将交互轨迹蒸馏为智能体的“认知技能”
EvolveR的核心思想非常直观且深刻:智能体在每次完成任务后,不应仅仅生成一堆日志文件便结束;它更应该具备从这些交互日志中,主动提炼出对未来任务具有普适性价值的“经验策略”的能力。
为了实现这一目标,EvolveR为智能体设计了一个完整的、自我驱动的闭环生命周期:
- 在线交互与执行:智能体面对新任务时,同步查询外部知识库和内部经验库,生成完整的推理与执行轨迹。
- 离线自蒸馏与总结:在参数冻结状态下,智能体回顾自己成功与失败的轨迹,主动归纳出简洁、通用、可迁移的经验策略。
- 经验库动态维护:系统对新产生的经验进行语义去重、合并优化,并基于动态效用评分机制进行筛选与淘汰,确保只保留高效、核心的经验。
- 策略进化与学习:利用强化学习算法训练模型,使其学会在恰当的时机精准检索并有效应用这些内部经验,优化决策流程。
这里所定义的“经验”,并非传统的工具插件或API,而更像是一种内化的“认知技能”或高阶思维模式。例如:
- 当遇到需要比较分析的问题时,应先并行收集两个对象的关键信息,再进行系统性对比。
- 在判断影视作品中的人物关系时,不能仅凭角色名称联想演员,必须查证具体的角色描述或剧情上下文。
- 如果一次网络搜索返回的结果不充分,不应机械重复相同查询,而应尝试改写关键词、变换搜索角度或使用高级搜索语法。
关键在于,这些宝贵的经验并非由外部教师模型或人类工程师强行灌输,而是智能体从自身的成败实践中主动归纳、抽象出来的,与自身策略高度对齐。

△EvolveR完整生命周期示意图
构建可筛选、可评分、可进化的智能经验库
许多现有的智能体记忆系统只是简单地保存原始轨迹或进行自然语言反思。而EvolveR则更强调对经验库的主动“维护”与“管理”。
在EvolveR框架中,每一条经验都会记录其被调用的次数和成功应用的次数,系统据此计算一个动态的效用分数。分数持续低于阈值的低效或过时经验会被自动“剪枝”淘汰,语义高度重复的经验则会被合并精简。这套机制确保了智能体的“经验大脑”始终保持轻盈、高效与纯净,避免被无效、冗余或过时的信息拖累性能。
这一点对于当前日益臃肿的智能体技能生态尤为重要。当智能体安装的外部技能和积累的内部记忆越来越多时,核心挑战将不再是“有没有经验可用”,而是:哪些经验在当前上下文下真正有效?哪些经验已经过时?哪些经验彼此冗余可以合并?哪些经验甚至可能产生误导?EvolveR的经验库维护机制正是为了解决这些问题。
利用强化学习让智能体学会“如何善用经验”
EvolveR与普通经验检索系统的根本区别在于:它不只是简单地将经验文本拼接到模型的上下文窗口中。在在线交互阶段,智能体可以通过特定的“检索”动作,主动查询内部经验库,再结合外部知识查询的结果,进行综合推理并最终给出答案。
随后,研究团队使用GRPO等强化学习算法,对这些在经验指导下的行为轨迹进行优化训练。其奖励函数的设计颇具巧思:它不仅评估最终答案的正确性(结果奖励),还会精细评估推理格式的规范性、经验检索的合理性以及知识检索的有效性(格式奖励)。
如果仅依赖最终答案对错这种“稀疏奖励”,智能体很难学会“如何善用经验”这类复杂的中间过程行为。为此,EvolveR设计了一套复合奖励函数,将“做对事”(结果正确)和“会做事”(过程合理)区分开来考核:

- 结果奖励:基于最终答案与标准答案的匹配度进行计算。
- 格式奖励:
- 思考步数奖励:鼓励智能体进行适度深度的推理,但同时防止其陷入“无限反思”的循环,强制其学会在思考充分后及时采取行动。
- 搜索多样性奖励:明确激励智能体同时调用内部经验和外部知识,进行综合判断,避免偏废其一,实现经验与知识的协同。
通过这样的训练,模型学到的不仅仅是“正确答案是什么”,更重要的是——在什么具体情境下应该检索经验、应该优先检索哪些经验、以及如何将检索到的经验转化为有效的行动步骤。这使得EvolveR区别于传统的RAG(检索增强生成)或简单的记忆系统:RAG主要解决的是“知识缺失”问题,而EvolveR旨在解决更深层次的“经验缺失”与“经验应用”问题。
性能验证:在多跳问答任务上超越Search-R1等强基线模型
论文在7个复杂的问答基准数据集上对EvolveR进行了全面验证。无论是在Qwen2.5-3B还是7B参数规模的模型上,EvolveR都取得了最优的平均性能表现。
相较于思维链(CoT)、RAG、监督微调(SFT)、拒绝采样(Rejection Sampling)以及Search-R1等先进的基线方法,EvolveR展现出更强的整体性能与鲁棒性。尤其在需要多步推理的复杂多跳问答任务和领域外泛化任务上,其表现更为稳定和出色。

研究还发现了一个关键现象:当模型规模较小时(如1B参数),借助GPT-4o-mini等更强的外部教师模型来帮助总结经验,效果更好;但当模型参数扩展到3B规模时,智能体自己总结出的经验原则,其实际效果反而超过了外部教师总结的原则。
这揭示了一个重要洞见:对智能体而言,最有效的经验未必来自最强的外部教师,而可能源于与自身策略最匹配的“自我经验”。作者将其解释为一种“认知对齐”——智能体通过自我蒸馏得到的经验原则,更贴合其自身的能力边界、推理习惯和知识表示,因此在实战中更容易被有效调用和执行。
这一发现对当前的智能体技能生态也具有深远启发:未来的智能体技能,可能不再全部依赖于人类工程师编写,将有相当一部分源自智能体自身在长期、大量执行任务过程中积累的轨迹与经验。

从“工具扩展”到“经验进化”:智能体自主学习的未来
过去一年的智能体发展浪潮已经证明,只要赋予大语言模型适当的工具、权限和清晰的工作流,它就能完成越来越多真实世界的复杂任务。
但这同时也暴露了新的能力天花板:智能体的能力增长,不能永远依赖人类持续不断地编写技能、安装插件、调整提示词。正如LangChain等框架近期所指出的,智能体的持续学习不仅发生在模型权重微调层面,同样可以发生在任务编排和上下文记忆层面;而智能体与环境的交互轨迹,正是这些学习过程最核心的燃料。
EvolveR指出了一个更加自主和可持续的进化方向:让智能体将自身的成败实践转化为可复用、可进化的内部经验,再通过强化学习,将“如何智能地运用经验”内化为其核心决策策略的一部分。
从这个视角看,EvolveR不仅仅是一种先进的智能体记忆或学习方法,它更是面向后OpenClaw/Claude Code时代的一个关键问题探索:
当智能体拥有了强大的工具箱和基础能力之后,它能否开始为自己积累经验,实现真正的、内生的成长?
EvolveR的初步实验给出了肯定的答案。这或许是智能体从“能够执行任务”迈向“越执行越聪明”的关键一步,为构建具备终身学习能力的自主智能系统开辟了新的路径。
相关攻略
在智能体(Agent)开发与功能扩展领域,Skills(技能)和 MCP(模型上下文协议)是两个至关重要的概念。它们虽然都与“能力”相关,但扮演着完全不同的角色。简单来说,Skills 是智能体执行具体任务的功能模块,例如“查询天气”或“分析数据”;而MCP 是由 Anthropic 提出的一套开放
上海交通大学与小红书团队提出MMSkills,将技能库升级为多模态程序性知识,使视觉Agent能识别关键状态并决策。该方法通过状态卡片、多视角关键帧和分支加载机制管理多模态信息,减少干扰。实验证明其在多个视觉任务中有效提升性能。
最近,关于“Skills + CLI 将取代 MCP”的讨论在社区里沸沸扬扬。自从 OpenClaw 带火了这套组合,似乎到处都能听到类似的论调。 平心而论,在本地开发 Agent 的场景下,Skills + CLI 的优势确实明显。一个 SKILL md 文件加上一行命令,比起配置一个完整的 MC
在人工智能领域,一个能够自主思考、规划并执行任务的智能体,已经远远超越了传统问答机器的范畴。它更像是一位数字化的战略指挥官,能够解析复杂目标、拆解任务步骤,并驱动整个系统协同完成。本文将深入解析构成现代AI智能体系统的四大核心要素:智能体(Agent)、工具(Tools)、技能(Skills)与模型
在智能体(Agent)生态系统中,技能(Skill)正迅速演变为一个关键的安全攻击面。其根本原因在于:当前大量智能体依赖社区贡献的技能来扩展功能,而一个技能包通常不仅包含自然语言说明文档,还可能内嵌可执行脚本、依赖声明以及权限请求。它表面上看似一个简单的“功能插件”,但实际上可能获取智能体的核心执行
热门专题
热门推荐
在使用Safari浏览器时,自动填充功能确实能极大提升效率。但随着时间推移,其中可能积累大量过时地址、失效密码,甚至无意保存的敏感内容。这些残留记录不仅影响使用体验,更可能成为隐私泄露的隐患。本文将系统介绍在Mac上彻底清理Safari自动填充记录的多种实用方案,帮助您有效管理浏览器数据。 一、通过
你是否遇到过这样的困扰:电脑明明处于空闲状态,风扇却突然高速运转,硬盘指示灯频繁闪烁,任务管理器显示CPU或磁盘占用率异常飙升?这种“系统看似休息,硬件却异常忙碌”的现象,很可能源于Windows系统内置的“自动维护”功能在后台悄然运行。该功能的设计初衷是好的,旨在利用系统空闲时间自动执行磁盘碎片整
如果你在使用Windows 11时,感觉屏幕上的文字、图标或按钮有些模糊不清,看久了眼睛容易疲劳,这可能不是你的视力问题,而是系统默认的色彩搭配对比度不够。为了让界面元素更醒目、更容易识别,Windows 11内置了一个非常实用的功能——高对比度模式。它通过大幅强化前景与背景的颜色差异,能显著提升屏
当你的Mac出现运行卡顿、风扇噪音增大或应用程序启动缓慢时,很可能是因为Spotlight索引服务正在后台占用大量系统资源。Spotlight作为macOS内置的搜索工具,虽然方便,但其持续的索引过程确实可能影响性能。本文将详细介绍五种有效管理Spotlight的方法,包括彻底禁用、精准控制索引范围
当您在 macOS 上遇到 Microsoft Teams 运行缓慢、界面显示错误或登录失败等问题时,不必立即归咎于网络或系统故障。一个常见且高效的解决方案是清理应用程序的本地缓存文件。这些缓存数据在长期使用后可能损坏或过时,从而影响软件性能。本文将为您提供三种在 Mac 上安全清理 Teams 缓





