如果你正在用 Claude 编写 Skills(技能),很可能被这个痛点反复折磨:辛辛苦苦做好一个处理 PDF 的技能,当用户说“帮我填个表单”时,它却压根不触发;哪怕加了详细描述,触发率依然时好时坏,只能手动改一句、测一次、再改、再测……纯纯看运气。
现在不用担心了——Anthropic 刚刚发布了 Skill-Creator 的重大升级,直接把软件工程领域的「测试驱动开发(TDD)」方法论引入了技能创作流程。无论你是产品经理、运营人员、开发者,还是热衷折腾 Agent 的普通用户,读完全文就能立刻上手,用真实数据说话,让技能既精准又稳定。
1. Skill-Creator 究竟是什么?
简单来说,它是 Claude 官方推出的「技能创建器」,专为快速起草 SKILL.md、自动运行测试(Evals)、测算触发率、耗时以及 Token 消耗而设计,还能帮你迭代优化描述与内容。
过去你写技能全凭“感觉”,现在它为你提供一整套工程化闭环。官方直接在 Claude.ai、Cowork、Claude Code 插件中就能使用,相关的开源仓库也同步更新。
2. 本次更新最核心的 5 个新功能(直击你的痛点)
① 内置自动测试(Evals)——再也不用手工试 20 遍
你只需准备几条「用户可能会怎么问」的测试提示词以及预期结果,Skill-Creator 就会自动跑一遍。报告会直接告诉你:触发成功率是多少?哪些用例失败了?消耗了多少 Token?耗时多久?
② 多 Agent 并行执行测试
以前只能一个个排队运行,现在 20 个测试场景可以同时交给 20 个独立 Agent 处理,上下文互不干扰,速度直接翻倍。
③ A/B 对比盲测(Comparator Agents)
改完技能描述后心里没底?让「比较器 Agent」盲测两个版本(甚至带技能版 vs 不带技能版),它会客观告诉你哪个表现更好。彻底告别“感觉好像强了一点”的直觉判断。

④ 描述自动优化(Description Tuning)
系统会分析你的描述和测试提示词,指出哪里容易误触发、哪里容易漏触发。官方实测结果显示:为 6 个公开文档创建技能后,其中 5 个的触发率都有明显提升。
⑤ Benchmark 模式 & 持续追踪
每次修改技能或 Claude 模型更新后,只需一键运行基准测试,就能生成包含通过率、执行时间、Token 消耗的数据报表。还能接入 CI 系统,真正实现「版本管理」。
一位 X 用户(@sitinme)总结得非常精准:「Agent 的世界正在从靠 Prompt 调参,迈向测试驱动开发(TDD)时代。」
3. 手把手教你用新 Skill-Creator 创建一个技能
根据官方 SKILL.md 和博客,这里精简为最适合「非程序员」也能上手的 5 个步骤:
Step 1:明确你要做什么
直接对 Claude 说:「我想做一个 XXX 技能」。Skill-Creator 会问你:触发词是什么?输出格式是否需要固定?有没有边界案例?
Step 2:撰写 SKILL.md 草稿
它会自动帮你填充 name、description(特别提醒:描述要写得“强势”一点,比如加一句「只要用户提到数据可视化、仪表盘,就必须调用这个技能」)、具体操作步骤以及配套资源(模板、脚本等)。
Step 3:编写 3-5 个测试用例
直接在 evals/evals.json 里加入提示词,Skill-Creator 会自动生成预期断言(assertions)。
Step 4:一键运行,查看报告
它会同时运行「带技能版」和「无技能版」的对比测试,生成完整的 review 页面(包含输出文件和数据指标)。
Step 5:迭代优化
根据报告 → 修改描述或逻辑 → 再跑一轮 Benchmark → 直到满意为止。官方建议:先小范围测试,满意后再扩展到 20 个测试用例。
实用小贴士(来自官方最佳实践):
- 能力增强型技能(例如 PDF 表单填充)→ 重点测试「是否成功完成操作」;
- 偏好编码型技能(例如 NDA 审查流程)→ 重点测试「格式是否严格遵循规范」;
- 写作类技能 → 仍需要人工判断质量,但可以用对比测试评估「哪个版本更专业」。
4. 真实案例:PDF 技能是如何被“救”回来的?
此前官方的 PDF 技能在遇到「不可填写表单」时就会崩溃。新版 Skill-Creator 利用 Evals 精准定位问题 → 改为「锚定提取文本坐标」→ 一次性修复,彻底稳定运行。你手中的技能,也可以用同样的方式“起死回生”。
5. 现在就去试试吧!
打开 Claude.ai 或 Cowork,输入「Use Skill-Creator」启动它;或者使用相关插件和仓库的文档。写完技能后记得分享到社区,一起把技能库越做越强大。
