Claude Skill-Creator重磅更新：告别玄学调试，代码化测试迭代Agent技能

时间：2026-07-02 12:11

如果你正在用 Claude 编写 Skills（技能），很可能被这个痛点反复折磨：辛辛苦苦做好一个处理 PDF 的技能，当用户说“帮我填个表单”时，它却压根不触发；哪怕加了详细描述，触发率依然时好时坏，只能手动改一句、测一次、再改、再测……纯纯看运气。现在不用担心了——Anthropic 刚刚发布了

如果你正在用 Claude 编写 Skills（技能），很可能被这个痛点反复折磨：辛辛苦苦做好一个处理 PDF 的技能，当用户说“帮我填个表单”时，它却压根不触发；哪怕加了详细描述，触发率依然时好时坏，只能手动改一句、测一次、再改、再测……纯纯看运气。

现在不用担心了——Anthropic 刚刚发布了 Skill-Creator 的重大升级，直接把软件工程领域的「测试驱动开发（TDD）」方法论引入了技能创作流程。无论你是产品经理、运营人员、开发者，还是热衷折腾 Agent 的普通用户，读完全文就能立刻上手，用真实数据说话，让技能既精准又稳定。

1. Skill-Creator 究竟是什么？

简单来说，它是 Claude 官方推出的「技能创建器」，专为快速起草 SKILL.md、自动运行测试（Evals）、测算触发率、耗时以及 Token 消耗而设计，还能帮你迭代优化描述与内容。

过去你写技能全凭“感觉”，现在它为你提供一整套工程化闭环。官方直接在 Claude.ai、Cowork、Claude Code 插件中就能使用，相关的开源仓库也同步更新。

2. 本次更新最核心的 5 个新功能（直击你的痛点）

① 内置自动测试（Evals）——再也不用手工试 20 遍

你只需准备几条「用户可能会怎么问」的测试提示词以及预期结果，Skill-Creator 就会自动跑一遍。报告会直接告诉你：触发成功率是多少？哪些用例失败了？消耗了多少 Token？耗时多久？

② 多 Agent 并行执行测试

以前只能一个个排队运行，现在 20 个测试场景可以同时交给 20 个独立 Agent 处理，上下文互不干扰，速度直接翻倍。

③ A/B 对比盲测（Comparator Agents）

改完技能描述后心里没底？让「比较器 Agent」盲测两个版本（甚至带技能版 vs 不带技能版），它会客观告诉你哪个表现更好。彻底告别“感觉好像强了一点”的直觉判断。

④ 描述自动优化（Description Tuning）

系统会分析你的描述和测试提示词，指出哪里容易误触发、哪里容易漏触发。官方实测结果显示：为 6 个公开文档创建技能后，其中 5 个的触发率都有明显提升。

⑤ Benchmark 模式 & 持续追踪

每次修改技能或 Claude 模型更新后，只需一键运行基准测试，就能生成包含通过率、执行时间、Token 消耗的数据报表。还能接入 CI 系统，真正实现「版本管理」。

一位 X 用户（@sitinme）总结得非常精准：「Agent 的世界正在从靠 Prompt 调参，迈向测试驱动开发（TDD）时代。」

3. 手把手教你用新 Skill-Creator 创建一个技能

根据官方 SKILL.md 和博客，这里精简为最适合「非程序员」也能上手的 5 个步骤：

Step 1：明确你要做什么
直接对 Claude 说：「我想做一个 XXX 技能」。Skill-Creator 会问你：触发词是什么？输出格式是否需要固定？有没有边界案例？

Step 2：撰写 SKILL.md 草稿
它会自动帮你填充 name、description（特别提醒：描述要写得“强势”一点，比如加一句「只要用户提到数据可视化、仪表盘，就必须调用这个技能」）、具体操作步骤以及配套资源（模板、脚本等）。

Step 3：编写 3-5 个测试用例
直接在 evals/evals.json 里加入提示词，Skill-Creator 会自动生成预期断言（assertions）。

Step 4：一键运行，查看报告
它会同时运行「带技能版」和「无技能版」的对比测试，生成完整的 review 页面（包含输出文件和数据指标）。

Step 5：迭代优化
根据报告 → 修改描述或逻辑 → 再跑一轮 Benchmark → 直到满意为止。官方建议：先小范围测试，满意后再扩展到 20 个测试用例。

实用小贴士（来自官方最佳实践）：

能力增强型技能（例如 PDF 表单填充）→ 重点测试「是否成功完成操作」；
偏好编码型技能（例如 NDA 审查流程）→ 重点测试「格式是否严格遵循规范」；
写作类技能 → 仍需要人工判断质量，但可以用对比测试评估「哪个版本更专业」。

4. 真实案例：PDF 技能是如何被“救”回来的？

此前官方的 PDF 技能在遇到「不可填写表单」时就会崩溃。新版 Skill-Creator 利用 Evals 精准定位问题 → 改为「锚定提取文本坐标」→ 一次性修复，彻底稳定运行。你手中的技能，也可以用同样的方式“起死回生”。

5. 现在就去试试吧！

打开 Claude.ai 或 Cowork，输入「Use Skill-Creator」启动它；或者使用相关插件和仓库的文档。写完技能后记得分享到社区，一起把技能库越做越强大。

来源：https://cloud.tencent.com.cn/developer/article/2701687

Claude

上一篇百炼Skills实战：spark-video零基础一句话生成AI视频 下一篇深入解析Claude Code构建经验：提示缓存为何是一切根本

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-07-02

内网RPA离线部署从依赖打包到7×24无人值守踩坑与避坑方案

这三年，内网RPA项目接了不下二十个。每次开局都像闯关——断网、缺依赖、多机同步、定时执行、批量分发、源码保护、AI离线化，八个坑一个比一个深。今天把这些实战经验整理出来，希望能帮正在内网搞自动化的兄弟们少踩点雷。一、内网无网络环境怎么部署RPA流程：先搞清楚什么叫“真离线” 很多工具宣传“支持本

AI教程 · 2026-07-02

水利工程师用WorkBuddy写洪水报告效率提升3倍

WorkBuddy开发者分享季水利工程师AI提效实战：用WorkBuddy撰写洪水影响评价报告，效率提升3倍 WorkBuddy 效率人工智能开发工具一、我是谁，为什么需要AI 先介绍一下自己——我是一名水利工程师，在湖南长沙的一家小型水利设计公司任职。当前行业环境不太

AI教程 · 2026-07-02

日志服务数据加工规则洞察仪表盘使用指南

数据加工诊断仪表盘想实时掌握日志服务加工功能的运行状态？直接从加工列表页点击那个“规则洞察”按钮，仪表盘就会立刻呈现出来。入口就在那儿，不绕弯子。跳转后，你可以按作业名称、实例ID或源LogStore来筛选任务状态。比如下边这张图，展示的是当前实例ID（90c9d47714dbb807d47c1

AI教程 · 2026-07-02

基于RFID的固定资产管理系统技术架构与工程实践

固定资产管理难题是众多企事业单位的普遍困扰，资产数量动辄数千件，且广泛分布于不同部门、楼层乃至园区。传统人工盘点方式在工程维度上始终面临三大关键瓶颈：采集效率低下、数据闭环中断、状态同步滞后。使用条码枪逐一扫描标签，识别距离通常不超过30厘米，操作人员需逐个寻找并扫描，盘点效率完全受限于人力。面对5

AI教程 · 2026-07-02

WorkBuddy实战用AI搭建A股智能盯盘助手省心高效

炒股的朋友们想必都深有体会——每天重复盯盘、查行情、分析板块轮动，这一整套流程下来耗费大量精力。手动翻查数据不仅身心俱疲，还很容易错过关键买卖节点。今天我们就来聊聊如何打造一款趁手的盯盘工具，借助AI替你分担这些重复性工作。背景：盯盘的核心痛点股民都有同感——每天不只要查询单只股票的实时行情，还