你给AI的Agent Skills可能无效甚至拖累性能

时间：2026-06-06 17:08

最近，一篇名为《SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks》的学术论文引发关注，它提出了一个犀利且反直觉的观点：由AI自己生成的Agent Skills（智能体技能）实际上效果有限，甚至可能拖累整

最近，一篇名为《SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks》的学术论文引发关注，它提出了一个犀利且反直觉的观点：由AI自己生成的Agent Skills（智能体技能）实际上效果有限，甚至可能拖累整体表现。

这篇发表于arXiv（编号：2602.12670）的研究，专门设计了一套基准测试来回答一个核心问题——“技能到底有没有用”。最终的系统性结论是：让模型自行编写所谓的“技能/流程指南”，平均而言并不能提升任务成功率，反而会带来轻微下降。这一发现颇具启发性。

先明确一个概念：什么是Agent Skill？在该论文中，它被定义为一种结构化的“程序性知识包”，旨在推理或执行阶段增强智能体的能力。论文特别区分了Skill与普通系统提示词、few-shot示例、RAG检索以及纯工具文档的差异。Skill更强调可复用的工作流或标准操作流程（SOP），并附带结构化资源。针对测试场景，研究将Skill分为两类：

Curated Skills（精心策划的技能）：提前设计好的、结构化的“操作指南与资源包”，是真正可落地执行的SOP。
Self-generated Skills（自生成技能）：由模型自行编写的技能。例如，先让模型为特定任务“编写一个技能文件”，再让它依据自己生成的技能去完成该任务。

这一基准测试SkillsBench的构建过程耗费了大量精力。它包含84个任务，覆盖11个领域。每个任务都配备了明确的验证场景（如运行脚本或单元测试），输出直接为pass或fail。更重要的是，同一个任务会在三种条件下进行对比：

No Skills：仅提供任务说明（requirements.md），环境中无额外技能包。
With Skills（使用精心准备的技能）：提供由专业团队编写、完整详细的技能包，包含具体步骤、示例和脚本等。
Self-Generated Skills（使用模型自生成技能）：不提供现成技能包，但要求模型在执行任务前先自行生成一个“技能文件”，然后据此执行。这旨在检验模型自身的潜在知识能否替代人类设计的技能。

基准测试的构建分为三大阶段：Benchmark Construction（基准构建）、Quality Filtering（质量过滤）和Evaluation（评估）。其中，基准构建的核心是从大量真实生态中收集技能。数据来源包括：开源仓库（12,847个）、Claude Code生态（28,412个）、企业合作伙伴（5,891个）。经过汇总与去重，最终获得47,150个独一无二的技能，并有322位贡献者提交了105个候选任务。

接下来是Quality Filtering阶段，将105个候选任务筛选为最终的基准任务。这个过程极为严格，包括自动化检查和人工审查两个环节：

自动化检查：包括结构有效性（Structure）、验证器能否稳定达到100%正确（Oracle 100%）、检测任务是否为AI生成的水任务（AI Detection）、以及泄漏审计（Leakage Audit），防止技能中直接包含答案或作弊路径。
人工审查：包括数据有效性（Data Validity）、任务真实性（Task Realism）、验证器质量（Oracle Quality）、配套技能质量（Skill Quality）、以及防作弊检查（Anti-Cheating）。

经过上述筛选，最终产出84个任务，覆盖11个领域。在Evaluation阶段，同一批任务在三种场景下运行，同时使用三套商业执行框架（Claude Code / Gemini CLI / Codex CLI）进行测试，结果通过pytest等确定性工具给出Pass/Fail。总共运行了7组agent-model配置，获得了7,308条执行轨迹。

此外，任务按人类完成时间划分为三个难度等级：

Core：17个任务（19.8%），人类完成时间小于60分钟。
Extended：43个任务（50.0%），人类完成时间1–4小时。
Extreme：26个任务（30.2%），人类完成时间大于4小时。

从这一配置可以看出，该测试并非随意编写几个示例，而是从真实世界中抽取了庞大的技能池和任务池。其真正难点不在于“出题”，而在于“确保题目可靠、可验证、无法投机取巧”。它测试的是智能体是否能真正正确完成任务并通过测试，而非主观打分或表面上的正确。

因此，论文测试的不是“在提示词中多加一句话是否有用”，而是“真实世界中高质量技能能否稳定带来收益”。结果如何？

No Skills：平均通过率为24.3%。
Curated Skills：平均通过率跃升至40.6%，平均提升21.5个百分点。
Self-generated Skills：平均通过率反而降至21.0%，平均下降1.8个百分点。

作者还专门对比了与No Skills的差异：Self-generated Skills的平均收益为-1.3个百分点。除Opus 4.6勉强有+1.4个百分点的微小提升外，Codex + GPT-5.2组合甚至出现了-5.6个百分点的显著下滑。而Curated Skills的平均收益为+16.2个百分点。但即便是精心策划的技能也并非万能，84个任务中有16个任务出现了负向收益。

论文将Self-generated Skills失败的原因归结为一个现实问题：模型无法稳定地写出自己在执行时真正会受益的程序性知识。因此“自生成”这条路，平均来看难以走通。这也容易理解，毕竟当前AI仍存在概率性，其产出和效能有时取决于运行时的“状态”。具体而言，论文通过轨迹分析指出了两种典型的失败模式：

模型意识到需要领域知识，但写出的内容过于泛泛、不完整。例如仅告知“用pandas处理数据”，却不提供关键的API模式、常见陷阱、验证方法及边界条件。这样的指南对实际任务几乎毫无可执行的指导意义。
在高领域知识要求的任务上，模型甚至未意识到需要专门的技能。面对制造、金融等领域的任务时，模型常采用所谓的“通用解法”硬闯，从而错过了需要SOP或行业流程的关键步骤。

总结而言：Self-generated技能往往只是“看似指南的废话”，或者根本未抓住应该编写的内容。

看到这里，你可能好奇：既然自生成效果如此之差，为何还有人在使用？什么场景下会让AI自行编写Skills？实际上，这类场景并不少见。当前许多所谓的“技能”就是图省事直接让AI生成的。最典型的代表或许是“Claudeception”这类玩法——让AI长期自行维护和迭代自己的技能包。这篇论文的结论无疑给这条路浇了冷水：就目前而言，这完全不靠谱。

相比之下，专业人士编写的Curated Skills通常包含：

明确的步骤顺序；
具体的工具或命令模板；
严格的数据格式约束；
可验证的检查点；
常见错误及修复路径。

尤其值得注意的是，Curated Skills包含了大量领域特定的知识。在失败分析中，作者也提到Self-generated技能的常见问题：要么未意识到某些任务需要专门的领域流程，要么写出的步骤过于通用，对实际问题毫无帮助。

除了“自生成不可靠”这一核心结论，论文还分析了技能设计本身的因素：

技能数量：2到3个模块最为理想。过多反而会拖累性能。按任务提供的技能数量分组，2–3个技能的提升最大（+18.6个百分点）。4个以上提升很小，甚至可能带来认知负担或冲突。
技能文档的复杂度：聚焦型文档的表现远优于“大全型”文档。论文将技能文档分为detailed（精细型）、compact（紧凑型）、standard（标准型）和comprehensive（全面型）。结果显示，detailed和compact的提升更大；而试图包含所有内容的comprehensive型，平均反而下降了2.9个百分点。

因此，技能并非越长越好，也并非越详细越好。关键在于清晰写出智能体下一步具体该做什么，例如检查点、命令模板、失败时的回滚路径。否则，再长的文档也只是噪声。

这篇论文的核心观点简洁明了：Agent Skills并非几句简单的提示词。一个系统性的技能包确实能增强智能体的能力。但当前AI自行维护的Self-generated Skills几乎毫无用处，甚至可能拉低效果。根本原因在于，模型很难稳定地写出真正可执行、能有效降低搜索空间的程序性知识。同时，技能的设计质量远比数量重要。

归根结底，高质量技能的真正价值在于它是一种“搜索空间压缩器”。它能限定决策路径、减少无效探索、提供验证锚点，并将隐藏的领域流程显式化。这才是高质量技能能够推高Agent性能表现的根本原因。因此，如果你发现使用某种技能后智能体反而变笨了，不必怀疑——大概率是你的技能中掺杂了太多无效噪声。

来源：https://juejin.cn/post/7606702049910439982

skill