中国科学技术大学AI技能图书馆:智能体从经验中学习成长
这项由中国科学技术大学主导,联合多伦多大学和悉尼大学共同完成的研究,已于2026年4月以预印本形式发布,论文编号为arXiv:2604.17308。对AI智能体终身学习机制感兴趣的读者,可通过此编号查阅完整论文。

设想一下,你聘用了一位新助理。每次交办任务后,他都会将全部经验清零,下次遇到类似工作时,又得从零开始摸索。这样的助理,其工作效率可想而知。现实中,我们评判助理是否优秀,核心标准在于他能否将今日的经验,转化为明日更高效的工作方法。这个道理看似简单,但对于当前的人工智能(AI)智能体而言,却是一个亟待解决的真实挑战。
这正是本项研究的出发点。研究团队观察到,越来越多的AI系统已能像人类一样使用工具,完成诸如读取电子表格、分析文档、生成报告等多步骤复杂任务。这类被称为“自主智能体”的AI,可以被视为在数字环境中独立工作的“虚拟员工”。为了提升其效率,研究者们开始为它们配备“技能包”——即一套预先编写的操作指南,指导智能体如何处理特定类型的问题。
然而,问题随之而来:现有的评估体系,大多只关注智能体能否运用现成的技能包解决问题,却忽略了一个更为根本的问题——智能体能否自主归纳总结出新的技能?在遭遇失败后,能否修正错误的技能?随着任务不断完成,它的技能库能否实现真正的“进化”与“成长”?
为了解答这些问题,研究团队构建了一套名为SKILLFLOW的评测框架,并对11种主流AI模型进行了系统性测试。结果发现,不同模型在“边做边学”这项关键能力上的表现差异显著。表现最佳的模型(Claude Opus 4.6)通过自我进化,任务成功率从62.65%提升至71.08%,增幅达8.43个百分点。然而,也有一些模型尽管频繁调用技能,任务表现却停滞不前,甚至出现倒退。这清晰地表明,“调用技能”与“真正从技能学习中获益”是截然不同的两回事。
一、一套专门测试“边干边学”能力的闯关游戏
要理解SKILLFLOW的评测逻辑,可以将其想象成一套精心设计的闯关游戏。该框架包含20个任务系列,每个系列有8到9个独立关卡,总计166个任务。其精妙之处在于:同一系列中的所有任务,虽然表面内容和数据千变万化,但其内在的核心操作逻辑却完全一致。
例如,一个系列可能围绕“财务报表滚动更新”展开。第一个任务让你处理一家餐厅的月度收支表,第二个任务换成医院的账目,第三个任务又变为航空公司的数据。尽管每次任务的具体数字和业务场景都不同,但核心操作步骤始终如一:读取多源数据、定位目标条目、过滤无效行、对齐调整项、滚动计算余额、与总量核对、最终输出汇总表格。
这个“内在一致的操作逻辑”,就是研究团队定义的核心概念——DAEF,即“领域无关执行流程”。你可以将其理解为一套“万能方法论框架”:每次的“食材”(具体数据)和“口味”(业务场景)都在变化,但“烹饪步骤”(操作流程)是恒定不变的。
为何要如此设计?原因在于,只有当一系列任务共享同一套底层逻辑时,才能真正测试出智能体是否具备从过往经验中抽象、提炼并复用“方法论”的能力。如果每个任务的逻辑都完全不同,那么智能体即便“学到”了什么,也根本没有机会再次应用。
研究覆盖了五大实用领域:金融与经济学、运营与供应链、医疗健康、治理与战略,以及数据与文档处理。每个领域都设计了数个典型的工作流系列,例如供应链补货计划、OCR数据提取、Excel加权风险评估、多语言文档自动化填写等,这些都是真实职场中高频出现的场景。
在任务构建上,团队首先从SkillsBench和GDPval两个现有数据集中精选了64个种子任务,并从中提炼出DAEF框架。随后,通过一套双智能体协同的自动扩展流程,为每个框架生成更多变体任务。这个过程类似于编辑与审稿人的配合:一个智能体(建筑师)负责设计新任务,另一个智能体(评审人)则在真实运行环境中验证任务的合理性与难度梯度。只有通过评审的任务才会被纳入最终测评集,并经过人工复查以确保质量。
二、智能体如何在游戏中积累自己的“技能图书馆”
SKILLFLOW的测评方式同样独具匠心。智能体在挑战第一个任务时,手头没有任何参考资料,完全依靠其原始能力。任务完成后,系统会提供一份详细的“执行反馈”,明确指出错误所在与未达标之处。
获得反馈后,智能体需要完成一项关键操作:将此次经历提炼成一条可复用的经验,并以文件形式存入其专属的技能库。面对下一个任务时,它便可以查阅技能库,参考过往经验,结合新任务的具体要求来制定解决方案。完成任务后再次获得反馈,并据此更新技能库。这个“执行→反馈→更新技能库→再执行”的循环,构成了所谓的“智能体终身学习协议”。
技能的存储格式设计得非常简洁。每次更新被称为一个“技能补丁”,包含三个部分:一段文字说明(总结新经验或修正旧错误)、需要新增或修改的文件内容、以及需要删除的过时文件。这种设计类似于版本控制系统,每一次修改都有迹可循,便于研究人员追溯智能体的学习轨迹。
技能文件本身也有明确的规范。每项技能存储在以技能命名的独立文件夹内,其中必须包含一个核心说明文件(SKILL.md),文件开头需注明技能名称和使用场景描述。说明文件的内容是可直接执行的操作指南,建议采用清晰的步骤说明、决策规则以及易犯错误的反面案例。辅助脚本存放在scripts子文件夹,详细参考文档或API说明存放在references子文件夹,可复用的模板则存放在assets子文件夹。
值得注意的是,技能库的更新完全由智能体自主完成,无需人工干预,也不依赖外部检索机制。技能的调用也是自然发生的:当智能体在执行任务中读取或调用了技能库中的文件,系统便会记录此次调用,作为“技能复用率”的统计依据。
三、实验结果揭示的深层洞察:高使用率≠高收益
测试结果出炉,其中几项发现颇为引人深思。
表现最为亮眼的是Claude Opus 4.6。在没有技能库辅助的基准测试中,它完成了166个任务中的104个,成功率为62.65%。开启终身学习模式后,完成数量上升至118个,成功率跃升至71.08%,净增8.43个百分点。不仅如此,平均每个任务的费用从0.665美元降至0.615美元,生成文字量也从平均3000字降至2390字——实现了“花钱更少,办事更多”的理想效果。
其他模型的表现也各有特点。MiniMax M2.5的成功率从28.31%升至34.94%,提升6.63个百分点。Claude Sonnet 4.5从49.40%升至55.42%,提升6.02个百分点。GPT 5.4从33.13%升至36.75%,提升3.62个百分点。
然而,观察Kimi K2.5时,情况变得有趣起来。该模型在终身学习模式下,高达66.87%的任务都调用了技能库——这表明它非常积极地使用积累的经验。但其任务成功率仅从55.42%微升至56.02%,涨幅仅0.60个百分点。高度的技能使用率与微弱的性能收益之间,形成了显著落差。
更极端的案例是几个出现性能退步的模型。GPT 5.3 Codex的成功率从52.41%跌至46.39%,下降6.02个百分点。Qwen-Coder-Next从45.18%跌至44.58%。Qwen3-Coder-480B从24.70%跌至24.10%。MiniMax M2.7从37.35%跌至36.75%。这些模型不仅未能因技能积累而变强,反而表现更差了。
研究团队还针对Claude Opus 4.6做了一个对照实验:禁止它积累结构化的技能库,而是将之前所有任务的完整对话历史直接附在当前任务前作为参考。这种“简单堆砌记忆”的做法效果如何?成功率仅为51.04%,比没有任何辅助的原始状态(62.65%)还要低11.61个百分点。这清晰地表明,将经历提炼、转化为结构化的技能,远比简单堆积冗长的历史记录有价值得多。这就好比厨师的成长依赖于精炼的食谱,而非反复观看每次下厨的全过程录像。
从领域分布来看,不同类型任务对技能进化的反应也不一致。数据与文档处理类任务从技能积累中获益最大,而金融与经济学类任务反而出现了更多负向变化。这表明技能进化的效果并非普适,某些任务类型天然更适合这套学习机制。
四、模型差异解析:为何有的越学越强,有的越学越乱
研究团队深入分析了背后的原因,总结出六条关键发现。
最核心的一条是:决定模型能否从技能进化中获益的关键,不在于它能否“生成”技能,而在于它能否“修正”错误的技能。几乎所有模型都能在任务完成后写出一条技能条目,这并不困难。真正的难点在于,当某条技能记录的是错误操作逻辑时,模型能否发现这个错误,并将其纠正过来?这才是能力的分水岭。
与此紧密相关的第二条发现是:一旦错误技能被写入库中,其危害会沿着任务序列向后传播。后续任务会继承这个错误逻辑,就像一个写错关键步骤的食谱,会导致所有照做的菜肴都出问题。这种错误传播效应,使得早期的错误技能格外危险。
第三条发现涉及技能库规模的反直觉规律:更小的技能库,往往对应更好的任务表现。在表现最佳的设置中,技能库最终平均只存有一到两项高度概括的技能。反而是那些表现欠佳的模型,技能库里堆积了四五项甚至更多技能,但成功率却未相应提升。原因在于,强大的模型倾向于将多次任务中反复出现的操作逻辑,提炼成一条高度概括的核心技能,并在每次学到新东西后对这条核心技能进行修订和完善。而较弱的模型则习惯为每次任务单独总结一条新技能,导致技能库日益庞杂,充斥着大量内容重叠却各自为政的条目。
以Qwen系列和部分MiniMax设置为例,它们的技能数量几乎随任务编号单调递增,几乎每完成一个任务就新增一条。但技能数量的快速膨胀并未带来成功率的提升,反而让智能体在面对庞大库容时陷入“认知过载”,不知该参考哪一条,最终适得其反。
另一方面,Codex系列展示了截然不同的风格:它倾向于将相邻任务的变体融合进同一条不断演化的核心技能,而非另立新条目,从而保持技能库的精简。但有趣的是,这种精简风格并未转化为与Opus系列相当的任务完成率,说明技能库精简只是必要条件,而非充分条件。
五、实战案例拆解:智能体如何学会处理Excel公式的经典陷阱
论文附录详细展示了一个真实任务案例,生动说明了技能进化在实际中如何发生,非常值得深入分析。
任务要求是:在一个Excel工作簿中,Task表单有一批黄色的空白单元格需要填写公式。第一步,要求填写INDEX+MATCH组合查询公式,数据源在Data表单的另一区域。第二步,要求计算六家医院的净患者流指标,并统计各列的最小值、最大值、中位数、均值、第25和第75百分位数。第三步,要求用SUMPRODUCT函数计算加权均值。
智能体开始时遵循合理流程:先读取任务说明,然后调用技能库中已有的Excel公式任务技能——该技能提醒它先读取验证脚本,搞清楚验证程序如何检查结果。智能体照做后,发现验证脚本会以`data_only=True`模式打开Excel文件。在此模式下,如果单元格只有公式字符串而没有缓存的计算结果,读取到的值将是空的。
这是一个经典陷阱:Python的openpyxl库可以向Excel单元格写入公式字符串,但本身不会计算公式,因此写入的公式没有配套的缓存值。如果验证程序以上述方式读取,就会得到全部空值,导致任务失败。
智能体意识到问题,开始寻找解决方案。它先尝试调用LibreOffice在后台重新计算工作簿,但发现容器环境中未安装该软件。又尝试使用名为`formulas`的Python库模拟计算,但该库计算出的结果同样无法被openpyxl以`data_only=True`方式读取。
走投无路之下,它转向了第三条路:直接修改Excel文件内部的XML结构。Excel文件本质是一个ZIP压缩包,内含若干XML文件。单元格公式存储在`
智能体开始实施该方案,但中途出了问题:它分多次修改XML,每次重新打包ZIP文件时,前一次写入的公式字符串被覆盖,最终导致部分单元格的公式消失,只剩缓存值。它诊断出根本原因是“多次XML修改导致公式字段被破坏”,于是果断放弃已修改的工作文件,重新从原始工作簿开始,先计算好所有单元格的Python值,然后在一次XML操作中统一写入所有缓存值。完成后运行验证脚本,167个公式单元格全部既有公式又有缓存值,任务通过。
任务完成后,智能体生成的技能补丁将整套经历提炼成一条清晰的操作指南。核心要点是:若验证方式使用`data_only=True`,则必须通过XML级别操作写入缓存值;所有XML修改必须一次性完成,绝不能分多次;LibreOffice和formulas库均不可靠,切勿依赖。技能中还提供了可直接复用的Python脚本,以及一张常见症状与对应修复方案的对照表。这条技能后来帮助智能体在该系列后续任务中大幅减少了试错次数。
六、SKILLFLOW评测与以往AI评测的本质区别
研究团队在论文附录中列出了一张详细的对比表,将SKILLFLOW与几个知名AI评测系统进行了比较。Terminal-Bench和SWE-bench是两个知名的AI任务评测平台,它们完全不考察技能相关维度。SkillsBench是最接近本研究出发点的前人工作,它确实测试了技能对任务的帮助效果,也支持智能体自行生成技能,但它不考察技能的迭代修正、技能的跨任务积累复用、技能是否真正对应有效使用,也没有基于交互轨迹提炼技能。而SKILLFLOW在上述所有维度上都给出了系统性的评测方案。
这种系统性的差异,使得SKILLFLOW能够揭示一些以往评测从未触及的问题,例如:为何有些模型频繁调用技能却无收益?为何技能库膨胀反而会损害表现?为何修正错误技能的能力比生成技能的能力更重要?这些发现对于AI研究者理解当前模型的瓶颈具有直接的参考价值。
归根结底,这项研究告诉我们,当前的AI智能体距离真正意义上的“边干边学”还有相当长的路要走。并非简单地配上一个可更新的技能库就能万事大吉,关键在于它是否具备将失败经历转化为有价值修正的能力,而不仅仅是将经历堆积成越来越厚的档案。
对于希望深入了解此方向的读者,相关代码已在GitHub平台开源,可通过论文编号arXiv:2604.17308找到完整论文与仓库地址。这是一个相当年轻的研究方向,仍有大量问题悬而未决:如何设计更好的技能修正激励机制?如何在不同类型任务间实现技能迁移?如何防止错误技能的持续传播?每一个问题背后,都是AI迈向真正自主学习所必须跨越的门槛。
Q&A
Q1:SKILLFLOW基准测试包含多少任务,覆盖哪些领域?
A:SKILLFLOW基准测试包含166个可执行任务,划分为20个任务系列。它全面覆盖了五大核心应用领域:金融与经济学、运营与供应链、医疗健康与生命科学、治理与战略,以及数据与文档处理。每个系列包含8到9个任务,这些任务共享同一套底层操作逻辑(DAEF),但具体的业务场景、文件内容和数据格式各不相同,专门用于测试智能体能否从一系列相似任务中抽象、提炼并复用核心经验。
Q2:Claude Opus 4.6在SKILLFLOW测试中提升了多少?
A:在11个被测模型中,Claude Opus 4.6表现最佳。在没有技能库辅助的基准测试中,其任务成功率为62.65%(完成104/166个任务)。开启终身学习模式、允许其积累和更新技能库后,成功率显著提升至71.08%(完成118个任务),净提升幅度达8.43个百分点。同时,其执行效率也得到优化,平均每任务费用从0.665美元降至0.615美元,生成文字量也有所减少,实现了成本与性能的双重优化。
Q3:为什么有些模型技能使用率很高,任务成功率却没有提升?
A:这是SKILLFLOW测试揭示的核心发现之一。以Kimi K2.5为例,其在终身学习模式下有66.87%的任务都调用了技能库,但成功率仅微升0.60个百分点,几乎没有实质收益。根本原因在于,调用技能和从技能中真正受益是两回事。如果一个模型倾向于为每次任务都单独创建新技能,导致技能库快速膨胀、内容冗余重叠,同时又缺乏有效识别和修正错误技能的能力,那么高使用率只会带来认知负担和决策干扰,而非能力的实质性提升。这凸显了技能“质”的重要性远高于“量”。
相关攻略
这项由中国科学技术大学主导,联合多伦多大学和悉尼大学共同完成的研究,已于2026年4月以预印本形式发布,论文编号为arXiv:2604 17308。对AI智能体终身学习机制感兴趣的读者,可通过此编号查阅完整论文。 设想一下,你聘用了一位新助理。每次交办任务后,他都会将全部经验清零,下次遇到类似工作时
马斯克的xAI公司近日发布AI编程智能体GrokBuild,被视为直接挑战Anthropic的Claude模型。该产品目前处于早期测试阶段,核心能力是处理复杂编程任务,其特色“计划模式”允许用户先审阅执行方案,再以差异对比形式呈现代码变更,增强了开发过程的可控性与协作性。
在人工智能技术飞速发展的今天,“AI聊天智能体”已成为一个备受关注的核心概念。它究竟是什么?简单来说,这是一种能够运用自然语言与人类进行流畅、智能对话的计算机程序系统。其核心价值在于,它不仅能够识别字面指令,更能深度理解用户的真实意图与情感倾向,从而提供如同真人伙伴般自然、贴切的交互体验。本文将为您
这项由电子科技大学牵头,联合韩国科学技术院、香港理工大学和庆熙大学共同完成的前沿研究,已于2026年4月正式发布于国际知名的ArXiv预印本平台,论文编号为arXiv:2604 05533v1。对于希望深入了解AI智能体迁移学习技术细节的读者,可以通过此编号查阅完整的学术论文。 熟悉《我的世界》(M
在当今飞速发展的科技浪潮中,人工智能已深度融入各行各业。其中,AI智能体作为关键的“行动派”,正发挥着日益重要的作用。与静态的模型或被动工具不同,智能体集感知、决策与执行能力于一体,如同数字世界中的“智能实体”,正在深刻改变众多领域的运作模式。 究竟什么是AI智能体?简单来说,它是一种能够自主感知环
热门专题
热门推荐
领克首款GT概念跑车亮相北京车展,由中欧团队联合打造。新车采用经典GT比例与低趴宽体设计,配备液态金属蓝涂装与2+2座舱,设有高性能模式按键可激活空气动力学套件。车辆采用后驱布局与AI智能运动控制系统,百公里加速约2秒,设计融合瑞典极简美学并参考全球用户反馈。
英伟达推出12GB显存版RTX5070移动GPU,与8GB版同步上市。两者均基于Blackwell架构,核心规格相同,仅显存容量不同。此举旨在缓解GDDR7芯片供应压力,为OEM提供灵活配置,加速笔记本产品布局,更大显存可更好满足游戏与AI应用需求。
微星将于5月15日推出两款26 5英寸雾面WOLED显示器MAG276QRY28和276QRDY54,售价分别为2499元和6299元。均采用第四代WOLED面板,具备QHD分辨率、VESADisplayHDRTrueBlack500认证、1500尼特峰值亮度及99 5%DCI-P3色域覆盖。276QRY28刷新率为280Hz,高阶款276QRDY54支持4
中芯国际2026年第一季度营收176 17亿元,同比增长8 1%;净利润13 61亿元,同比增长0 4%。公司预计第二季度收入环比增长14%至16%,毛利率指引上调至20%至22%。这反映出公司在行业复苏中展现出财务韧性,并通过运营优化增强了短期增长势头。
手机修图、相机降噪、视频去雾……这些我们日常使用的图像处理功能,其背后都离不开人工智能(AI)技术的驱动。通常,AI模型的训练逻辑是:向模型展示大量“低质图像”与“优质图像”的配对数据,让它学习如何将前者转化为后者。然而,天津大学计算机视觉团队近期发表的一项研究(arXiv:2604 08172)揭





