最近,一篇名为《SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks》的学术论文引发关注,它提出了一个犀利且反直觉的观点:由AI自己生成的Agent Skills(智能体技能)实际上效果有限,甚至可能拖累整体表现。
这篇发表于arXiv(编号:2602.12670)的研究,专门设计了一套基准测试来回答一个核心问题——“技能到底有没有用”。最终的系统性结论是:让模型自行编写所谓的“技能/流程指南”,平均而言并不能提升任务成功率,反而会带来轻微下降。这一发现颇具启发性。
先明确一个概念:什么是Agent Skill?在该论文中,它被定义为一种结构化的“程序性知识包”,旨在推理或执行阶段增强智能体的能力。论文特别区分了Skill与普通系统提示词、few-shot示例、RAG检索以及纯工具文档的差异。Skill更强调可复用的工作流或标准操作流程(SOP),并附带结构化资源。针对测试场景,研究将Skill分为两类:
- Curated Skills(精心策划的技能):提前设计好的、结构化的“操作指南与资源包”,是真正可落地执行的SOP。
- Self-generated Skills(自生成技能):由模型自行编写的技能。例如,先让模型为特定任务“编写一个技能文件”,再让它依据自己生成的技能去完成该任务。
这一基准测试SkillsBench的构建过程耗费了大量精力。它包含84个任务,覆盖11个领域。每个任务都配备了明确的验证场景(如运行脚本或单元测试),输出直接为pass或fail。更重要的是,同一个任务会在三种条件下进行对比:
- No Skills:仅提供任务说明(requirements.md),环境中无额外技能包。
- With Skills(使用精心准备的技能):提供由专业团队编写、完整详细的技能包,包含具体步骤、示例和脚本等。
- Self-Generated Skills(使用模型自生成技能):不提供现成技能包,但要求模型在执行任务前先自行生成一个“技能文件”,然后据此执行。这旨在检验模型自身的潜在知识能否替代人类设计的技能。
基准测试的构建分为三大阶段:Benchmark Construction(基准构建)、Quality Filtering(质量过滤)和Evaluation(评估)。其中,基准构建的核心是从大量真实生态中收集技能。数据来源包括:开源仓库(12,847个)、Claude Code生态(28,412个)、企业合作伙伴(5,891个)。经过汇总与去重,最终获得47,150个独一无二的技能,并有322位贡献者提交了105个候选任务。
接下来是Quality Filtering阶段,将105个候选任务筛选为最终的基准任务。这个过程极为严格,包括自动化检查和人工审查两个环节:
- 自动化检查:包括结构有效性(Structure)、验证器能否稳定达到100%正确(Oracle 100%)、检测任务是否为AI生成的水任务(AI Detection)、以及泄漏审计(Leakage Audit),防止技能中直接包含答案或作弊路径。
- 人工审查:包括数据有效性(Data Validity)、任务真实性(Task Realism)、验证器质量(Oracle Quality)、配套技能质量(Skill Quality)、以及防作弊检查(Anti-Cheating)。
经过上述筛选,最终产出84个任务,覆盖11个领域。在Evaluation阶段,同一批任务在三种场景下运行,同时使用三套商业执行框架(Claude Code / Gemini CLI / Codex CLI)进行测试,结果通过pytest等确定性工具给出Pass/Fail。总共运行了7组agent-model配置,获得了7,308条执行轨迹。
此外,任务按人类完成时间划分为三个难度等级:
- Core:17个任务(19.8%),人类完成时间小于60分钟。
- Extended:43个任务(50.0%),人类完成时间1–4小时。
- Extreme:26个任务(30.2%),人类完成时间大于4小时。
从这一配置可以看出,该测试并非随意编写几个示例,而是从真实世界中抽取了庞大的技能池和任务池。其真正难点不在于“出题”,而在于“确保题目可靠、可验证、无法投机取巧”。它测试的是智能体是否能真正正确完成任务并通过测试,而非主观打分或表面上的正确。
因此,论文测试的不是“在提示词中多加一句话是否有用”,而是“真实世界中高质量技能能否稳定带来收益”。结果如何?
- No Skills:平均通过率为24.3%。
- Curated Skills:平均通过率跃升至40.6%,平均提升21.5个百分点。
- Self-generated Skills:平均通过率反而降至21.0%,平均下降1.8个百分点。
作者还专门对比了与No Skills的差异:Self-generated Skills的平均收益为-1.3个百分点。除Opus 4.6勉强有+1.4个百分点的微小提升外,Codex + GPT-5.2组合甚至出现了-5.6个百分点的显著下滑。而Curated Skills的平均收益为+16.2个百分点。但即便是精心策划的技能也并非万能,84个任务中有16个任务出现了负向收益。
论文将Self-generated Skills失败的原因归结为一个现实问题:模型无法稳定地写出自己在执行时真正会受益的程序性知识。因此“自生成”这条路,平均来看难以走通。这也容易理解,毕竟当前AI仍存在概率性,其产出和效能有时取决于运行时的“状态”。具体而言,论文通过轨迹分析指出了两种典型的失败模式:
- 模型意识到需要领域知识,但写出的内容过于泛泛、不完整。例如仅告知“用pandas处理数据”,却不提供关键的API模式、常见陷阱、验证方法及边界条件。这样的指南对实际任务几乎毫无可执行的指导意义。
- 在高领域知识要求的任务上,模型甚至未意识到需要专门的技能。面对制造、金融等领域的任务时,模型常采用所谓的“通用解法”硬闯,从而错过了需要SOP或行业流程的关键步骤。
总结而言:Self-generated技能往往只是“看似指南的废话”,或者根本未抓住应该编写的内容。
看到这里,你可能好奇:既然自生成效果如此之差,为何还有人在使用?什么场景下会让AI自行编写Skills?实际上,这类场景并不少见。当前许多所谓的“技能”就是图省事直接让AI生成的。最典型的代表或许是“Claudeception”这类玩法——让AI长期自行维护和迭代自己的技能包。这篇论文的结论无疑给这条路浇了冷水:就目前而言,这完全不靠谱。
相比之下,专业人士编写的Curated Skills通常包含:
- 明确的步骤顺序;
- 具体的工具或命令模板;
- 严格的数据格式约束;
- 可验证的检查点;
- 常见错误及修复路径。
尤其值得注意的是,Curated Skills包含了大量领域特定的知识。在失败分析中,作者也提到Self-generated技能的常见问题:要么未意识到某些任务需要专门的领域流程,要么写出的步骤过于通用,对实际问题毫无帮助。
除了“自生成不可靠”这一核心结论,论文还分析了技能设计本身的因素:
- 技能数量:2到3个模块最为理想。过多反而会拖累性能。按任务提供的技能数量分组,2–3个技能的提升最大(+18.6个百分点)。4个以上提升很小,甚至可能带来认知负担或冲突。
- 技能文档的复杂度:聚焦型文档的表现远优于“大全型”文档。论文将技能文档分为detailed(精细型)、compact(紧凑型)、standard(标准型)和comprehensive(全面型)。结果显示,detailed和compact的提升更大;而试图包含所有内容的comprehensive型,平均反而下降了2.9个百分点。
因此,技能并非越长越好,也并非越详细越好。关键在于清晰写出智能体下一步具体该做什么,例如检查点、命令模板、失败时的回滚路径。否则,再长的文档也只是噪声。
这篇论文的核心观点简洁明了:Agent Skills并非几句简单的提示词。一个系统性的技能包确实能增强智能体的能力。但当前AI自行维护的Self-generated Skills几乎毫无用处,甚至可能拉低效果。根本原因在于,模型很难稳定地写出真正可执行、能有效降低搜索空间的程序性知识。同时,技能的设计质量远比数量重要。
归根结底,高质量技能的真正价值在于它是一种“搜索空间压缩器”。它能限定决策路径、减少无效探索、提供验证锚点,并将隐藏的领域流程显式化。这才是高质量技能能够推高Agent性能表现的根本原因。因此,如果你发现使用某种技能后智能体反而变笨了,不必怀疑——大概率是你的技能中掺杂了太多无效噪声。
