游乐游手机版
首页/AI教程/文章详情

你给AI的Agent Skills可能无效甚至拖累性能

时间:2026-06-06 17:08
最近,一篇名为《SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks》的学术论文引发关注,它提出了一个犀利且反直觉的观点:由AI自己生成的Agent Skills(智能体技能)实际上效果有限,甚至可能拖累整

最近,一篇名为《SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks》的学术论文引发关注,它提出了一个犀利且反直觉的观点:由AI自己生成的Agent Skills(智能体技能)实际上效果有限,甚至可能拖累整体表现。

这篇发表于arXiv(编号:2602.12670)的研究,专门设计了一套基准测试来回答一个核心问题——“技能到底有没有用”。最终的系统性结论是:让模型自行编写所谓的“技能/流程指南”,平均而言并不能提升任务成功率,反而会带来轻微下降。这一发现颇具启发性。

先明确一个概念:什么是Agent Skill?在该论文中,它被定义为一种结构化的“程序性知识包”,旨在推理或执行阶段增强智能体的能力。论文特别区分了Skill与普通系统提示词、few-shot示例、RAG检索以及纯工具文档的差异。Skill更强调可复用的工作流或标准操作流程(SOP),并附带结构化资源。针对测试场景,研究将Skill分为两类:

  • Curated Skills(精心策划的技能):提前设计好的、结构化的“操作指南与资源包”,是真正可落地执行的SOP。
  • Self-generated Skills(自生成技能):由模型自行编写的技能。例如,先让模型为特定任务“编写一个技能文件”,再让它依据自己生成的技能去完成该任务。

这一基准测试SkillsBench的构建过程耗费了大量精力。它包含84个任务,覆盖11个领域。每个任务都配备了明确的验证场景(如运行脚本或单元测试),输出直接为pass或fail。更重要的是,同一个任务会在三种条件下进行对比:

  • No Skills:仅提供任务说明(requirements.md),环境中无额外技能包。
  • With Skills(使用精心准备的技能):提供由专业团队编写、完整详细的技能包,包含具体步骤、示例和脚本等。
  • Self-Generated Skills(使用模型自生成技能):不提供现成技能包,但要求模型在执行任务前先自行生成一个“技能文件”,然后据此执行。这旨在检验模型自身的潜在知识能否替代人类设计的技能。

基准测试的构建分为三大阶段:Benchmark Construction(基准构建)、Quality Filtering(质量过滤)和Evaluation(评估)。其中,基准构建的核心是从大量真实生态中收集技能。数据来源包括:开源仓库(12,847个)、Claude Code生态(28,412个)、企业合作伙伴(5,891个)。经过汇总与去重,最终获得47,150个独一无二的技能,并有322位贡献者提交了105个候选任务。

接下来是Quality Filtering阶段,将105个候选任务筛选为最终的基准任务。这个过程极为严格,包括自动化检查和人工审查两个环节:

  • 自动化检查:包括结构有效性(Structure)、验证器能否稳定达到100%正确(Oracle 100%)、检测任务是否为AI生成的水任务(AI Detection)、以及泄漏审计(Leakage Audit),防止技能中直接包含答案或作弊路径。
  • 人工审查:包括数据有效性(Data Validity)、任务真实性(Task Realism)、验证器质量(Oracle Quality)、配套技能质量(Skill Quality)、以及防作弊检查(Anti-Cheating)。

经过上述筛选,最终产出84个任务,覆盖11个领域。在Evaluation阶段,同一批任务在三种场景下运行,同时使用三套商业执行框架(Claude Code / Gemini CLI / Codex CLI)进行测试,结果通过pytest等确定性工具给出Pass/Fail。总共运行了7组agent-model配置,获得了7,308条执行轨迹。

此外,任务按人类完成时间划分为三个难度等级:

  • Core:17个任务(19.8%),人类完成时间小于60分钟。
  • Extended:43个任务(50.0%),人类完成时间1–4小时。
  • Extreme:26个任务(30.2%),人类完成时间大于4小时。

从这一配置可以看出,该测试并非随意编写几个示例,而是从真实世界中抽取了庞大的技能池和任务池。其真正难点不在于“出题”,而在于“确保题目可靠、可验证、无法投机取巧”。它测试的是智能体是否能真正正确完成任务并通过测试,而非主观打分或表面上的正确。

因此,论文测试的不是“在提示词中多加一句话是否有用”,而是“真实世界中高质量技能能否稳定带来收益”。结果如何?

  • No Skills:平均通过率为24.3%。
  • Curated Skills:平均通过率跃升至40.6%,平均提升21.5个百分点。
  • Self-generated Skills:平均通过率反而降至21.0%,平均下降1.8个百分点。

作者还专门对比了与No Skills的差异:Self-generated Skills的平均收益为-1.3个百分点。除Opus 4.6勉强有+1.4个百分点的微小提升外,Codex + GPT-5.2组合甚至出现了-5.6个百分点的显著下滑。而Curated Skills的平均收益为+16.2个百分点。但即便是精心策划的技能也并非万能,84个任务中有16个任务出现了负向收益。

论文将Self-generated Skills失败的原因归结为一个现实问题:模型无法稳定地写出自己在执行时真正会受益的程序性知识。因此“自生成”这条路,平均来看难以走通。这也容易理解,毕竟当前AI仍存在概率性,其产出和效能有时取决于运行时的“状态”。具体而言,论文通过轨迹分析指出了两种典型的失败模式:

  • 模型意识到需要领域知识,但写出的内容过于泛泛、不完整。例如仅告知“用pandas处理数据”,却不提供关键的API模式、常见陷阱、验证方法及边界条件。这样的指南对实际任务几乎毫无可执行的指导意义。
  • 在高领域知识要求的任务上,模型甚至未意识到需要专门的技能。面对制造、金融等领域的任务时,模型常采用所谓的“通用解法”硬闯,从而错过了需要SOP或行业流程的关键步骤。

总结而言:Self-generated技能往往只是“看似指南的废话”,或者根本未抓住应该编写的内容。

看到这里,你可能好奇:既然自生成效果如此之差,为何还有人在使用?什么场景下会让AI自行编写Skills?实际上,这类场景并不少见。当前许多所谓的“技能”就是图省事直接让AI生成的。最典型的代表或许是“Claudeception”这类玩法——让AI长期自行维护和迭代自己的技能包。这篇论文的结论无疑给这条路浇了冷水:就目前而言,这完全不靠谱。

相比之下,专业人士编写的Curated Skills通常包含:

  • 明确的步骤顺序;
  • 具体的工具或命令模板;
  • 严格的数据格式约束;
  • 可验证的检查点;
  • 常见错误及修复路径。

尤其值得注意的是,Curated Skills包含了大量领域特定的知识。在失败分析中,作者也提到Self-generated技能的常见问题:要么未意识到某些任务需要专门的领域流程,要么写出的步骤过于通用,对实际问题毫无帮助。

除了“自生成不可靠”这一核心结论,论文还分析了技能设计本身的因素:

  • 技能数量:2到3个模块最为理想。过多反而会拖累性能。按任务提供的技能数量分组,2–3个技能的提升最大(+18.6个百分点)。4个以上提升很小,甚至可能带来认知负担或冲突。
  • 技能文档的复杂度:聚焦型文档的表现远优于“大全型”文档。论文将技能文档分为detailed(精细型)、compact(紧凑型)、standard(标准型)和comprehensive(全面型)。结果显示,detailed和compact的提升更大;而试图包含所有内容的comprehensive型,平均反而下降了2.9个百分点。

因此,技能并非越长越好,也并非越详细越好。关键在于清晰写出智能体下一步具体该做什么,例如检查点、命令模板、失败时的回滚路径。否则,再长的文档也只是噪声。

这篇论文的核心观点简洁明了:Agent Skills并非几句简单的提示词。一个系统性的技能包确实能增强智能体的能力。但当前AI自行维护的Self-generated Skills几乎毫无用处,甚至可能拉低效果。根本原因在于,模型很难稳定地写出真正可执行、能有效降低搜索空间的程序性知识。同时,技能的设计质量远比数量重要。

归根结底,高质量技能的真正价值在于它是一种“搜索空间压缩器”。它能限定决策路径、减少无效探索、提供验证锚点,并将隐藏的领域流程显式化。这才是高质量技能能够推高Agent性能表现的根本原因。因此,如果你发现使用某种技能后智能体反而变笨了,不必怀疑——大概率是你的技能中掺杂了太多无效噪声。

来源:https://juejin.cn/post/7606702049910439982
上一篇Google AI Pro订阅政策及一个月免费试用说明 下一篇让Codex把工作流蒸馏成技能的技巧
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
阿里云OpenClaw官方镜像六大场景3分钟开箱即用指南
AI教程 · 2026-06-06

阿里云OpenClaw官方镜像六大场景3分钟开箱即用指南

先聊聊OpenClaw到底是什么,以及它为什么值得关注。作为阿里云推出的智能助理平台,OpenClaw基于通义千问大模型深度定制,目标很明确:为开发者、创作者、运营者提供一站式的AI赋能解决方案。下面直接切入正题,看看它的六大核心场景。 OpenClaw 智能助理:六大核心场景赋能开发者高效成长 O

Moltbot Clawdbot与飞书机器人接入实践
AI教程 · 2026-06-06

Moltbot Clawdbot与飞书机器人接入实践

简单认识一下 Clawdbot 最近 AI 圈被一款名为 Clawdbot 的产品刷屏了。不管是在国内技术社区,还是刷 TG、X 的时候,几乎都能看到有人在讨论它。 看了一下官方文档,Clawdbot 本质上就是一个偏“个人智能助手”的东西。不过它并不是单独开一个网页给我们用,而是可以直接接入我们平

SpringAI与ONNX打造免费离线向量引擎
AI教程 · 2026-06-06

SpringAI与ONNX打造免费离线向量引擎

前段时间尝试了一个很有意思的项目——原本只是想在 Spring AI 项目中顺手集成 ONNX 模型,结果一上手就停不下来,直接调试到凌晨两点,边调边感慨:整个过程也太丝滑流畅了。 今天就来深入聊聊这件事:如何在 Spring AI 中使用 ONNX 向量模型,实现本地化的文本嵌入能力。 如果你之前

AI智能体技能完全指南:让你的AI助手拥有超能力
AI教程 · 2026-06-06

AI智能体技能完全指南:让你的AI助手拥有超能力

引言:AI Agent 的能力边界在哪里?你的AI编程助手可以编写代码,但它是否真正理解你公司的独特工作流程?能否自动处理你的CI CD流水线?又是否熟悉你日常使用的那些特定工具与API接口?AI Agent Skills正是为解决这一痛点而诞生的——它们作为可复用的能力模块,能够将通用型AI助手转

AI编程神器狂揽34k星与Claude Code和Codex绝配
AI教程 · 2026-06-06

AI编程神器狂揽34k星与Claude Code和Codex绝配

CC Switch:一站式AI编程工具管理神器 今天要介绍的这款实用小工具,名字叫作CC Switch。它是一款跨平台的桌面“All-in-One”助手,专门用于管理主流的AI编程开发工具。目前该项目在GitHub上已经获得了34k+ star,关注度非常高。它的核心卖点很直接:提供一个可视化操作界