MemTensor技术突破：AI智能体经验库进化带来7.9%性能提升

时间：2026-05-26 07:11

SkillsVote研究提出AI智能体技能生命周期管理方案：从开源平台收集技能，经评估筛选构建高质量技能库。任务执行前通过侦察机制推荐相关技能，执行后进行归因分析提取可复用经验。经验经聚合与路由决策后受控更新技能库。实验表明，该方法能显著提升AI在终端与编程任务上的表现，核心在于通过。

你是否设想过，如果AI助手能将每次解决问题的经验都沉淀下来，形成可复用的知识库，那么处理同类任务的效率将获得多大提升？这正是MemTensor（上海）科技公司最新研究的核心目标。其研究成果“SkillsVote”以预印本形式发布于2026年5月18日，论文编号为arXiv:2605.18401，旨在为AI智能体构建一套系统化的经验积累与复用机制。

一、AI助手如何实现“经验积累”

试想一家餐厅，若每位厨师每次烹饪新菜都需从零摸索火候与调料，效率必然低下。反之，若有一本持续完善的食谱手册，记录历次成功经验，效率将截然不同。SkillsVote研究中的“Agent Skills”（智能体技能库）正是这样一本“AI食谱”。

现代AI智能体执行任务时，会产生包含工具调用、障碍应对及解决方案的完整操作轨迹。这些轨迹如同厨师的烹饪笔记，蕴含宝贵经验。然而，原始轨迹往往杂乱无章，直接复用可能引入干扰。SkillsVote的核心创新在于，将这些零散的“操作备忘”系统化整理为可持续更新、精准调用的专业知识库。

研究团队指出，现有AI技能生态（如GitHub上数百万技能文件）规模庞大但质量参差：内容过时、描述模糊或无法实际运行的问题普遍存在。若不加甄别地将这些技能提供给AI助手，反而会引入噪音，增加出错概率。为此，团队提出一套完整的“技能生命周期管理”闭环方案，涵盖技能收集、质量筛选、智能推荐、执行归因及受控进化五大环节。

二、构建百万量级的“高质量技能库”

该管理体系的基石是一个高质量技能素材库。团队从GitHub等开源平台搜集超百万技能文件，每个技能均以标准化目录包形式组织：核心文档SKILL.md定义技能用途与方法；可选的scripts/目录存放可执行代码；references/目录提供参考文档；assets/目录则存储模板资源。

然而，数量不等于质量。如同仅凭书名无法判断食谱优劣，技能也需多维度评估。为此，团队为每个技能建立三重档案分析：

第一重是“运行环境档案”，核查技能执行所需的基础条件：包括操作系统要求、管理员权限、命令行工具或API密钥依赖、网络访问权限等，确保技能可被实际部署。

第二重是“质量档案”，评估技能描述的清晰度、内容完整性及实操价值。一份仅写“适量盐”而无具体克数的食谱，其指导意义有限。

第三重是“可验证性档案”，判断技能效果能否被客观衡量、是否可在沙盒环境中复现、以及能否构建自动化测试任务进行评分。

对于通过可验证性筛选的技能，团队会进一步合成真实测试任务，让AI模型实际运行并记录成功率、执行轨迹等数据。这为静态的技能描述赋予了“真实执行数据”的背书，使其从纸面说明书升级为经过验证的操作指南。

三、任务执行前的“智能技能推荐”

建立高质量技能库后，关键是在AI助手执行任务前，为其精准匹配最相关的技能参考。此过程称为“技能推荐”，其设计颇具巧思。

传统方法类似于将图书馆中所有相关书籍的简介一并交给厨师，由其自行判断。SkillsVote则采用更高效的策略：在AI助手正式执行前，先派遣一个专职“侦察员”模块。该模块不负责执行，仅专注于检索技能库——它会使用多种关键词进行搜索，仔细阅读候选技能内容，最终筛选出与当前任务最相关、最互补且最适应执行环境的一小组技能，并生成简洁的使用指南供执行者参考。

这种设计基于一个重要发现：技能库规模越大、覆盖面越广，越容易引入干扰信息。若将数十个相关度不一的技能全部塞给AI助手，反而可能导致其决策混乱。相比之下，精心挑选3-5个最相关的技能并附上说明，辅助效果更佳。

该推荐侦察员采用类似文件系统浏览的方式进行搜索：先列出技能目录，再根据关键词检索文件内容，并有选择地打开详细文档深度阅读。这与传统的“语义相似度匹配”不同，后者仅进行文本层面的相似度计算，而前者则模拟了研究员查阅文献并做出综合判断的完整过程。

四、任务执行后的“细粒度归因分析”

获得优质技能参考后，AI助手开始执行任务，其每一步操作均被记录形成完整轨迹。任务结束后，SkillsVote并非简单记录成败，而是进行深入的“归因分析”——如同厨师在烹制完成后复盘每个环节的得失。

此处面临一个关键挑战：操作轨迹通常包含数十甚至数百个步骤。若将整条轨迹作为一个学习单元，则难以厘清具体哪个步骤决定了最终结果。SkillsVote的解决方案是将轨迹分解为多个“子任务”——每个子任务仅包含一个独立目标、一种主要判断标准及最多一个关联技能的上下文。这类似于将一桌宴席分解为前菜、主菜、甜品等独立环节，便于单独评估。

对于每个子任务，系统从三个维度进行分析：

首先是“结果证据”：该子任务的成功或失败是否有客观的环境反馈支撑？例如代码能否运行、测试能否通过等具有明确对错的情形，需与依赖主观判断的情形区分对待。

其次是“责任归属”：子任务的成功主要归功于参考了技能库中的某个技能，还是AI助手自主探索的结果？若因环境问题导致失败，则与技能本身无关。明确责任归属，才能将经验准确沉淀至对应的“食谱”。

最后是“可复用发现”：在该子任务中，AI助手是否发现了原有技能库未记载的有用知识？例如原技能说明“直接运行命令”，但实际操作中发现需先启动依赖服务——此类具有普遍指导意义的发现，才值得被提取并更新至技能库。

五、实施“受控进化”的经验入库机制

完成细粒度归因分析后，SkillsVote进入关键的“受控进化”阶段——决定哪些经验值得永久写入技能库，哪些应予丢弃。

此处设有严格的准入门槛：仅当子任务同时满足“最终成功”且“包含可复用新发现”两个条件时，方可触发技能库更新。失败的尝试、结果无法客观判断的任务、或虽成功但未产生新知识的操作，均不会被收录。这类似于餐厅菜品研发——只有经过多次测试、确认稳定可行的创新做法，才会被正式纳入菜单。

通过准入筛选的经验还需经历聚合步骤：若多个不同任务中均发现了同一技巧（例如部署Web服务时多次需要先检查端口占用），这些重复发现将被合并为一条更新建议，避免经验库冗余臃肿。

最后是路由决策：这条新经验应添加到现有技能中，还是独立创建新技能？若新发现属于已有技能的覆盖范围，则对该技能进行最小化修改；若涉及全新能力领域，则独立创建新技能文件。当证据不足或新发现与现有技能边界存在歧义时，系统会选择跳过修改，秉持“宁缺毋滥”的原则。

六、实验验证：方法是否真正有效

为验证这套技能生命周期管理方案的实际效果，研究团队在两个高难度AI评测平台上进行了测试：Terminal-Bench 2.0与SWE-Bench Pro。

Terminal-Bench 2.0包含89个真实世界终端操作任务，考验AI在命令行环境中处理复杂问题的能力。SWE-Bench Pro则包含来自11个真实代码仓库的731个软件工程任务，是评估AI编程能力的硬核基准。

实验设计三种主要场景：

第一种为“无技能基准”：AI不参考任何技能库，仅凭自身能力完成任务，作为衡量改进幅度的基线。

第二种为“在线进化”：从空白技能库出发，AI边执行任务边积累经验，每完成若干任务即更新技能库，并持续使用更新后的技能库执行后续任务。

第三种为“离线进化”：先用一批历史任务训练出技能库，然后将此“冻结”的技能库迁移至完全不同的新任务集上使用，测试技能的跨任务泛化能力。

测试结果显著：在Terminal-Bench 2.0上，离线进化方案使GPT-5.2的准确率从51.0%提升至58.9%（提升7.9个百分点）；GPT-5.4 mini也从51.7%提升至57.5%（提升5.8个百分点）。在线进化方案提升幅度相对较小但稳定。

在SWE-Bench Pro上，在线进化方案使GPT-5.2的解题率从47.6%提升至50.2%（提升2.6个百分点）。这些提升完全源自技能库的外部辅助，AI模型本身参数未作任何调整。

七、技能推荐的核心价值：过滤噪音

实验中有一个细节尤为关键：技能库的存在并非总是有益的。若不加以筛选地将所有相关技能直接提供给AI，反而可能导致其表现下降。

研究团队针对Terminal-Bench 2.0中的“困难任务”子集进行了推荐功能的消融实验。结果显示，当在线积累的技能库不经过推荐筛选、直接全部暴露给AI时，任务层面的表现下降明显多于提升。而引入推荐筛选后，这种负面效应完全消失。

这表明推荐模块的核心角色是一个“噪音过滤器”：在技能库内容尚未成熟的早期阶段，其主要价值并非帮助AI找到优质参考，而是帮助其避开描述不准确或与当前任务关联度低的技能干扰。随着技能库通过离线进化变得成熟可靠，推荐筛选的正面贡献也随之增强。

八、离线进化：实现跨任务的知识迁移

另一项深刻发现是离线进化所展现的“知识迁移”能力。用于训练技能库的48个历史任务，与最终测试的89个Terminal-Bench 2.0任务完全不同。训练任务并非为提高测试分数而专门设计，仅提供了一批真实操作经验。

从技能库增长曲线可见，随着处理更多历史任务，技能库在来源任务集上的表现并非单调上升——有时甚至下降，这表明系统并非在“记忆”历史任务的答案。关键在于：当此技能库被迁移至新任务集使用时，其表现却持续提升。

论文通过具体案例阐释了这种迁移的本质。在训练阶段，AI处理了一批配置Apache Web服务器的任务，从中学习了关键经验：使用系统服务而非临时脚本启动服务器、将配置文件置于持久化目录、并进行端到端验证。这些经验被整合进一个技能文件。

在测试阶段，AI遇到一个配置Git服务器的任务：需搭建代码仓库，使用户推送代码后，内容自动出现在Web服务器的特定页面。此任务与Apache配置无直接关系，但当AI查阅技能库并找到该Apache技能文件时，它学习到了一套通用工作原则：使用稳定的系统服务托管Web端点、利用钩子同步代码至服务目录、通过命令验证链路畅通。最终，使用技能库的AI成功完成任务，而未使用技能库的对照组则因使用临时脚本且缺乏端到端验证而失败。

这揭示了一个深刻洞见：真正有价值的技能，保存的并非具体任务的答案，而是能够跨越任务边界的通用操作原则与方法论。

总而言之，SkillsVote研究为理解AI系统的成长提供了新颖视角。我们常认为让AI更聪明的唯一途径是训练更大模型，但此项研究展示了另一条路径：通过精心设计的外部知识管理机制，固定参数的模型可借助持续积累与精炼的技能库，不断提升其在真实任务中的表现。

这种思路的意义在于将“经验积累”与“模型训练”解耦：前者可快速迭代、即时生效、随时审查；后者则需要大量计算资源与时间。两者结合，或许是构建实用AI助手的最佳方式。当然，当前系统仍面临挑战：在线进化的提升幅度相对有限、不同类型任务的受益程度差异较大、技能推荐质量仍有优化空间。这些均是未来值得深入探索的方向。

常见问题解答

Q1：SkillsVote中的“技能”具体以何种形式存在？

A：SkillsVote中的技能以标准化目录包形式存在。其核心是一个名为SKILL.md的文档，使用自然语言描述该技能的用途、适用条件及操作步骤。此外，目录包还可包含可执行脚本、参考文档及资源模板。您可以将其理解为一份详细的操作手册，AI助手在执行相关任务时可随时查阅参考，无需从头摸索。

Q2：SkillsVote的技能推荐与普通搜索有何区别？

A：普通搜索通常基于任务描述与技能描述的文字相似度进行匹配。SkillsVote的推荐机制则更接近专业研究员的文献查阅流程：在任务开始前，专用“侦察员”模块会使用多种关键词主动检索技能库，打开候选技能的完整内容仔细阅读，综合考量技能的实际内容、与任务的匹配度以及不同技能间的互补性，最终输出一份精简的推荐清单及使用建议，而非简单的相似度排名列表。

Q3：SkillsVote在何种情况下不会更新技能库？

A：以下几种情况不会触发技能库更新：1）任务最终失败，即使过程中有所发现也不会写入；2）任务成功但未产生可复用新知识；3）失败原因归于外部环境问题（如第三方服务宕机、沙盒权限限制），不会归咎于技能本身；4）发现的内容过于任务特定（如某个文件的具体路径名），被判定为不可复用而丢弃。系统秉持严谨原则，确保入库经验具有普遍指导价值。

来源：https://www.163.com/dy/article/KTQ9I8LV0511DTVV.html

Tensor