中国科学技术大学AI技能图书馆：智能体从经验中学习成长

首页

热心网友

转载

2026-05-15

这项由中国科学技术大学主导，联合多伦多大学和悉尼大学共同完成的研究，已于2026年4月以预印本形式发布，论文编号为arXiv:2604.17308。对AI智能体终身学习机制感兴趣的读者，可通过此编号查阅完整论文。

中国科学技术大学打造的AI

设想一下，你聘用了一位新助理。每次交办任务后，他都会将全部经验清零，下次遇到类似工作时，又得从零开始摸索。这样的助理，其工作效率可想而知。现实中，我们评判助理是否优秀，核心标准在于他能否将今日的经验，转化为明日更高效的工作方法。这个道理看似简单，但对于当前的人工智能（AI）智能体而言，却是一个亟待解决的真实挑战。

这正是本项研究的出发点。研究团队观察到，越来越多的AI系统已能像人类一样使用工具，完成诸如读取电子表格、分析文档、生成报告等多步骤复杂任务。这类被称为“自主智能体”的AI，可以被视为在数字环境中独立工作的“虚拟员工”。为了提升其效率，研究者们开始为它们配备“技能包”——即一套预先编写的操作指南，指导智能体如何处理特定类型的问题。

然而，问题随之而来：现有的评估体系，大多只关注智能体能否运用现成的技能包解决问题，却忽略了一个更为根本的问题——智能体能否自主归纳总结出新的技能？在遭遇失败后，能否修正错误的技能？随着任务不断完成，它的技能库能否实现真正的“进化”与“成长”？

为了解答这些问题，研究团队构建了一套名为SKILLFLOW的评测框架，并对11种主流AI模型进行了系统性测试。结果发现，不同模型在“边做边学”这项关键能力上的表现差异显著。表现最佳的模型（Claude Opus 4.6）通过自我进化，任务成功率从62.65%提升至71.08%，增幅达8.43个百分点。然而，也有一些模型尽管频繁调用技能，任务表现却停滞不前，甚至出现倒退。这清晰地表明，“调用技能”与“真正从技能学习中获益”是截然不同的两回事。

一、一套专门测试“边干边学”能力的闯关游戏

要理解SKILLFLOW的评测逻辑，可以将其想象成一套精心设计的闯关游戏。该框架包含20个任务系列，每个系列有8到9个独立关卡，总计166个任务。其精妙之处在于：同一系列中的所有任务，虽然表面内容和数据千变万化，但其内在的核心操作逻辑却完全一致。

例如，一个系列可能围绕“财务报表滚动更新”展开。第一个任务让你处理一家餐厅的月度收支表，第二个任务换成医院的账目，第三个任务又变为航空公司的数据。尽管每次任务的具体数字和业务场景都不同，但核心操作步骤始终如一：读取多源数据、定位目标条目、过滤无效行、对齐调整项、滚动计算余额、与总量核对、最终输出汇总表格。

这个“内在一致的操作逻辑”，就是研究团队定义的核心概念——DAEF，即“领域无关执行流程”。你可以将其理解为一套“万能方法论框架”：每次的“食材”（具体数据）和“口味”（业务场景）都在变化，但“烹饪步骤”（操作流程）是恒定不变的。

为何要如此设计？原因在于，只有当一系列任务共享同一套底层逻辑时，才能真正测试出智能体是否具备从过往经验中抽象、提炼并复用“方法论”的能力。如果每个任务的逻辑都完全不同，那么智能体即便“学到”了什么，也根本没有机会再次应用。

研究覆盖了五大实用领域：金融与经济学、运营与供应链、医疗健康、治理与战略，以及数据与文档处理。每个领域都设计了数个典型的工作流系列，例如供应链补货计划、OCR数据提取、Excel加权风险评估、多语言文档自动化填写等，这些都是真实职场中高频出现的场景。

在任务构建上，团队首先从SkillsBench和GDPval两个现有数据集中精选了64个种子任务，并从中提炼出DAEF框架。随后，通过一套双智能体协同的自动扩展流程，为每个框架生成更多变体任务。这个过程类似于编辑与审稿人的配合：一个智能体（建筑师）负责设计新任务，另一个智能体（评审人）则在真实运行环境中验证任务的合理性与难度梯度。只有通过评审的任务才会被纳入最终测评集，并经过人工复查以确保质量。

二、智能体如何在游戏中积累自己的“技能图书馆”

SKILLFLOW的测评方式同样独具匠心。智能体在挑战第一个任务时，手头没有任何参考资料，完全依靠其原始能力。任务完成后，系统会提供一份详细的“执行反馈”，明确指出错误所在与未达标之处。

获得反馈后，智能体需要完成一项关键操作：将此次经历提炼成一条可复用的经验，并以文件形式存入其专属的技能库。面对下一个任务时，它便可以查阅技能库，参考过往经验，结合新任务的具体要求来制定解决方案。完成任务后再次获得反馈，并据此更新技能库。这个“执行→反馈→更新技能库→再执行”的循环，构成了所谓的“智能体终身学习协议”。

技能的存储格式设计得非常简洁。每次更新被称为一个“技能补丁”，包含三个部分：一段文字说明（总结新经验或修正旧错误）、需要新增或修改的文件内容、以及需要删除的过时文件。这种设计类似于版本控制系统，每一次修改都有迹可循，便于研究人员追溯智能体的学习轨迹。

技能文件本身也有明确的规范。每项技能存储在以技能命名的独立文件夹内，其中必须包含一个核心说明文件（SKILL.md），文件开头需注明技能名称和使用场景描述。说明文件的内容是可直接执行的操作指南，建议采用清晰的步骤说明、决策规则以及易犯错误的反面案例。辅助脚本存放在scripts子文件夹，详细参考文档或API说明存放在references子文件夹，可复用的模板则存放在assets子文件夹。

值得注意的是，技能库的更新完全由智能体自主完成，无需人工干预，也不依赖外部检索机制。技能的调用也是自然发生的：当智能体在执行任务中读取或调用了技能库中的文件，系统便会记录此次调用，作为“技能复用率”的统计依据。

三、实验结果揭示的深层洞察：高使用率≠高收益

测试结果出炉，其中几项发现颇为引人深思。

表现最为亮眼的是Claude Opus 4.6。在没有技能库辅助的基准测试中，它完成了166个任务中的104个，成功率为62.65%。开启终身学习模式后，完成数量上升至118个，成功率跃升至71.08%，净增8.43个百分点。不仅如此，平均每个任务的费用从0.665美元降至0.615美元，生成文字量也从平均3000字降至2390字——实现了“花钱更少，办事更多”的理想效果。

其他模型的表现也各有特点。MiniMax M2.5的成功率从28.31%升至34.94%，提升6.63个百分点。Claude Sonnet 4.5从49.40%升至55.42%，提升6.02个百分点。GPT 5.4从33.13%升至36.75%，提升3.62个百分点。

然而，观察Kimi K2.5时，情况变得有趣起来。该模型在终身学习模式下，高达66.87%的任务都调用了技能库——这表明它非常积极地使用积累的经验。但其任务成功率仅从55.42%微升至56.02%，涨幅仅0.60个百分点。高度的技能使用率与微弱的性能收益之间，形成了显著落差。

更极端的案例是几个出现性能退步的模型。GPT 5.3 Codex的成功率从52.41%跌至46.39%，下降6.02个百分点。Qwen-Coder-Next从45.18%跌至44.58%。Qwen3-Coder-480B从24.70%跌至24.10%。MiniMax M2.7从37.35%跌至36.75%。这些模型不仅未能因技能积累而变强，反而表现更差了。

研究团队还针对Claude Opus 4.6做了一个对照实验：禁止它积累结构化的技能库，而是将之前所有任务的完整对话历史直接附在当前任务前作为参考。这种“简单堆砌记忆”的做法效果如何？成功率仅为51.04%，比没有任何辅助的原始状态（62.65%）还要低11.61个百分点。这清晰地表明，将经历提炼、转化为结构化的技能，远比简单堆积冗长的历史记录有价值得多。这就好比厨师的成长依赖于精炼的食谱，而非反复观看每次下厨的全过程录像。

从领域分布来看，不同类型任务对技能进化的反应也不一致。数据与文档处理类任务从技能积累中获益最大，而金融与经济学类任务反而出现了更多负向变化。这表明技能进化的效果并非普适，某些任务类型天然更适合这套学习机制。

四、模型差异解析：为何有的越学越强，有的越学越乱

研究团队深入分析了背后的原因，总结出六条关键发现。

最核心的一条是：决定模型能否从技能进化中获益的关键，不在于它能否“生成”技能，而在于它能否“修正”错误的技能。几乎所有模型都能在任务完成后写出一条技能条目，这并不困难。真正的难点在于，当某条技能记录的是错误操作逻辑时，模型能否发现这个错误，并将其纠正过来？这才是能力的分水岭。

与此紧密相关的第二条发现是：一旦错误技能被写入库中，其危害会沿着任务序列向后传播。后续任务会继承这个错误逻辑，就像一个写错关键步骤的食谱，会导致所有照做的菜肴都出问题。这种错误传播效应，使得早期的错误技能格外危险。

第三条发现涉及技能库规模的反直觉规律：更小的技能库，往往对应更好的任务表现。在表现最佳的设置中，技能库最终平均只存有一到两项高度概括的技能。反而是那些表现欠佳的模型，技能库里堆积了四五项甚至更多技能，但成功率却未相应提升。原因在于，强大的模型倾向于将多次任务中反复出现的操作逻辑，提炼成一条高度概括的核心技能，并在每次学到新东西后对这条核心技能进行修订和完善。而较弱的模型则习惯为每次任务单独总结一条新技能，导致技能库日益庞杂，充斥着大量内容重叠却各自为政的条目。

以Qwen系列和部分MiniMax设置为例，它们的技能数量几乎随任务编号单调递增，几乎每完成一个任务就新增一条。但技能数量的快速膨胀并未带来成功率的提升，反而让智能体在面对庞大库容时陷入“认知过载”，不知该参考哪一条，最终适得其反。

另一方面，Codex系列展示了截然不同的风格：它倾向于将相邻任务的变体融合进同一条不断演化的核心技能，而非另立新条目，从而保持技能库的精简。但有趣的是，这种精简风格并未转化为与Opus系列相当的任务完成率，说明技能库精简只是必要条件，而非充分条件。

五、实战案例拆解：智能体如何学会处理Excel公式的经典陷阱

论文附录详细展示了一个真实任务案例，生动说明了技能进化在实际中如何发生，非常值得深入分析。

任务要求是：在一个Excel工作簿中，Task表单有一批黄色的空白单元格需要填写公式。第一步，要求填写INDEX+MATCH组合查询公式，数据源在Data表单的另一区域。第二步，要求计算六家医院的净患者流指标，并统计各列的最小值、最大值、中位数、均值、第25和第75百分位数。第三步，要求用SUMPRODUCT函数计算加权均值。

智能体开始时遵循合理流程：先读取任务说明，然后调用技能库中已有的Excel公式任务技能——该技能提醒它先读取验证脚本，搞清楚验证程序如何检查结果。智能体照做后，发现验证脚本会以`data_only=True`模式打开Excel文件。在此模式下，如果单元格只有公式字符串而没有缓存的计算结果，读取到的值将是空的。

这是一个经典陷阱：Python的openpyxl库可以向Excel单元格写入公式字符串，但本身不会计算公式，因此写入的公式没有配套的缓存值。如果验证程序以上述方式读取，就会得到全部空值，导致任务失败。

智能体意识到问题，开始寻找解决方案。它先尝试调用LibreOffice在后台重新计算工作簿，但发现容器环境中未安装该软件。又尝试使用名为`formulas`的Python库模拟计算，但该库计算出的结果同样无法被openpyxl以`data_only=True`方式读取。

走投无路之下，它转向了第三条路：直接修改Excel文件内部的XML结构。Excel文件本质是一个ZIP压缩包，内含若干XML文件。单元格公式存储在``标签中，缓存值存储在``标签中。如果手动为每个有公式的单元格写入一个``标签，验证程序就能读到值了。

智能体开始实施该方案，但中途出了问题：它分多次修改XML，每次重新打包ZIP文件时，前一次写入的公式字符串被覆盖，最终导致部分单元格的公式消失，只剩缓存值。它诊断出根本原因是“多次XML修改导致公式字段被破坏”，于是果断放弃已修改的工作文件，重新从原始工作簿开始，先计算好所有单元格的Python值，然后在一次XML操作中统一写入所有缓存值。完成后运行验证脚本，167个公式单元格全部既有公式又有缓存值，任务通过。

任务完成后，智能体生成的技能补丁将整套经历提炼成一条清晰的操作指南。核心要点是：若验证方式使用`data_only=True`，则必须通过XML级别操作写入缓存值；所有XML修改必须一次性完成，绝不能分多次；LibreOffice和formulas库均不可靠，切勿依赖。技能中还提供了可直接复用的Python脚本，以及一张常见症状与对应修复方案的对照表。这条技能后来帮助智能体在该系列后续任务中大幅减少了试错次数。

六、SKILLFLOW评测与以往AI评测的本质区别

研究团队在论文附录中列出了一张详细的对比表，将SKILLFLOW与几个知名AI评测系统进行了比较。Terminal-Bench和SWE-bench是两个知名的AI任务评测平台，它们完全不考察技能相关维度。SkillsBench是最接近本研究出发点的前人工作，它确实测试了技能对任务的帮助效果，也支持智能体自行生成技能，但它不考察技能的迭代修正、技能的跨任务积累复用、技能是否真正对应有效使用，也没有基于交互轨迹提炼技能。而SKILLFLOW在上述所有维度上都给出了系统性的评测方案。

这种系统性的差异，使得SKILLFLOW能够揭示一些以往评测从未触及的问题，例如：为何有些模型频繁调用技能却无收益？为何技能库膨胀反而会损害表现？为何修正错误技能的能力比生成技能的能力更重要？这些发现对于AI研究者理解当前模型的瓶颈具有直接的参考价值。

归根结底，这项研究告诉我们，当前的AI智能体距离真正意义上的“边干边学”还有相当长的路要走。并非简单地配上一个可更新的技能库就能万事大吉，关键在于它是否具备将失败经历转化为有价值修正的能力，而不仅仅是将经历堆积成越来越厚的档案。

对于希望深入了解此方向的读者，相关代码已在GitHub平台开源，可通过论文编号arXiv:2604.17308找到完整论文与仓库地址。这是一个相当年轻的研究方向，仍有大量问题悬而未决：如何设计更好的技能修正激励机制？如何在不同类型任务间实现技能迁移？如何防止错误技能的持续传播？每一个问题背后，都是AI迈向真正自主学习所必须跨越的门槛。

Q&A

Q1：SKILLFLOW基准测试包含多少任务，覆盖哪些领域？

A：SKILLFLOW基准测试包含166个可执行任务，划分为20个任务系列。它全面覆盖了五大核心应用领域：金融与经济学、运营与供应链、医疗健康与生命科学、治理与战略，以及数据与文档处理。每个系列包含8到9个任务，这些任务共享同一套底层操作逻辑（DAEF），但具体的业务场景、文件内容和数据格式各不相同，专门用于测试智能体能否从一系列相似任务中抽象、提炼并复用核心经验。

Q2：Claude Opus 4.6在SKILLFLOW测试中提升了多少？

A：在11个被测模型中，Claude Opus 4.6表现最佳。在没有技能库辅助的基准测试中，其任务成功率为62.65%（完成104/166个任务）。开启终身学习模式、允许其积累和更新技能库后，成功率显著提升至71.08%（完成118个任务），净提升幅度达8.43个百分点。同时，其执行效率也得到优化，平均每任务费用从0.665美元降至0.615美元，生成文字量也有所减少，实现了成本与性能的双重优化。

Q3：为什么有些模型技能使用率很高，任务成功率却没有提升？

A：这是SKILLFLOW测试揭示的核心发现之一。以Kimi K2.5为例，其在终身学习模式下有66.87%的任务都调用了技能库，但成功率仅微升0.60个百分点，几乎没有实质收益。根本原因在于，调用技能和从技能中真正受益是两回事。如果一个模型倾向于为每次任务都单独创建新技能，导致技能库快速膨胀、内容冗余重叠，同时又缺乏有效识别和修正错误技能的能力，那么高使用率只会带来认知负担和决策干扰，而非能力的实质性提升。这凸显了技能“质”的重要性远高于“量”。

来源:https://www.techwalker.com/2026/0429/3185474.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：Cohere与Poolside揭示大语言模型存在环境盲区问题下一篇：韩阳大学团队研发AI助手：智能体如何真正记住并理解用户习惯