游乐游手机版
首页/AI教程/文章详情

Claude Skill-Creator重磅更新:告别玄学调试,代码化测试迭代Agent技能

时间:2026-07-02 12:11
如果你正在用 Claude 编写 Skills(技能),很可能被这个痛点反复折磨:辛辛苦苦做好一个处理 PDF 的技能,当用户说“帮我填个表单”时,它却压根不触发;哪怕加了详细描述,触发率依然时好时坏,只能手动改一句、测一次、再改、再测……纯纯看运气。现在不用担心了——Anthropic 刚刚发布了

如果你正在用 Claude 编写 Skills(技能),很可能被这个痛点反复折磨:辛辛苦苦做好一个处理 PDF 的技能,当用户说“帮我填个表单”时,它却压根不触发;哪怕加了详细描述,触发率依然时好时坏,只能手动改一句、测一次、再改、再测……纯纯看运气。

现在不用担心了——Anthropic 刚刚发布了 Skill-Creator 的重大升级,直接把软件工程领域的「测试驱动开发(TDD)」方法论引入了技能创作流程。无论你是产品经理、运营人员、开发者,还是热衷折腾 Agent 的普通用户,读完全文就能立刻上手,用真实数据说话,让技能既精准又稳定。

1. Skill-Creator 究竟是什么?

简单来说,它是 Claude 官方推出的「技能创建器」,专为快速起草 SKILL.md、自动运行测试(Evals)、测算触发率、耗时以及 Token 消耗而设计,还能帮你迭代优化描述与内容。

过去你写技能全凭“感觉”,现在它为你提供一整套工程化闭环。官方直接在 Claude.ai、Cowork、Claude Code 插件中就能使用,相关的开源仓库也同步更新。

2. 本次更新最核心的 5 个新功能(直击你的痛点)

① 内置自动测试(Evals)——再也不用手工试 20 遍

你只需准备几条「用户可能会怎么问」的测试提示词以及预期结果,Skill-Creator 就会自动跑一遍。报告会直接告诉你:触发成功率是多少?哪些用例失败了?消耗了多少 Token?耗时多久?

② 多 Agent 并行执行测试

以前只能一个个排队运行,现在 20 个测试场景可以同时交给 20 个独立 Agent 处理,上下文互不干扰,速度直接翻倍。

③ A/B 对比盲测(Comparator Agents)

改完技能描述后心里没底?让「比较器 Agent」盲测两个版本(甚至带技能版 vs 不带技能版),它会客观告诉你哪个表现更好。彻底告别“感觉好像强了一点”的直觉判断。

④ 描述自动优化(Description Tuning)

系统会分析你的描述和测试提示词,指出哪里容易误触发、哪里容易漏触发。官方实测结果显示:为 6 个公开文档创建技能后,其中 5 个的触发率都有明显提升。

⑤ Benchmark 模式 & 持续追踪

每次修改技能或 Claude 模型更新后,只需一键运行基准测试,就能生成包含通过率、执行时间、Token 消耗的数据报表。还能接入 CI 系统,真正实现「版本管理」。

一位 X 用户(@sitinme)总结得非常精准:「Agent 的世界正在从靠 Prompt 调参,迈向测试驱动开发(TDD)时代。」

3. 手把手教你用新 Skill-Creator 创建一个技能

根据官方 SKILL.md 和博客,这里精简为最适合「非程序员」也能上手的 5 个步骤:

Step 1:明确你要做什么
直接对 Claude 说:「我想做一个 XXX 技能」。Skill-Creator 会问你:触发词是什么?输出格式是否需要固定?有没有边界案例?

Step 2:撰写 SKILL.md 草稿
它会自动帮你填充 name、description(特别提醒:描述要写得“强势”一点,比如加一句「只要用户提到数据可视化、仪表盘,就必须调用这个技能」)、具体操作步骤以及配套资源(模板、脚本等)。

Step 3:编写 3-5 个测试用例
直接在 evals/evals.json 里加入提示词,Skill-Creator 会自动生成预期断言(assertions)。

Step 4:一键运行,查看报告
它会同时运行「带技能版」和「无技能版」的对比测试,生成完整的 review 页面(包含输出文件和数据指标)。

Step 5:迭代优化
根据报告 → 修改描述或逻辑 → 再跑一轮 Benchmark → 直到满意为止。官方建议:先小范围测试,满意后再扩展到 20 个测试用例。

实用小贴士(来自官方最佳实践):

  • 能力增强型技能(例如 PDF 表单填充)→ 重点测试「是否成功完成操作」;
  • 偏好编码型技能(例如 NDA 审查流程)→ 重点测试「格式是否严格遵循规范」;
  • 写作类技能 → 仍需要人工判断质量,但可以用对比测试评估「哪个版本更专业」。

4. 真实案例:PDF 技能是如何被“救”回来的?

此前官方的 PDF 技能在遇到「不可填写表单」时就会崩溃。新版 Skill-Creator 利用 Evals 精准定位问题 → 改为「锚定提取文本坐标」→ 一次性修复,彻底稳定运行。你手中的技能,也可以用同样的方式“起死回生”。

5. 现在就去试试吧!

打开 Claude.ai 或 Cowork,输入「Use Skill-Creator」启动它;或者使用相关插件和仓库的文档。写完技能后记得分享到社区,一起把技能库越做越强大。

来源:https://cloud.tencent.com.cn/developer/article/2701687
上一篇百炼Skills实战:spark-video零基础一句话生成AI视频 下一篇深入解析Claude Code构建经验:提示缓存为何是一切根本
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
内网RPA离线部署从依赖打包到7×24无人值守踩坑与避坑方案
AI教程 · 2026-07-02

内网RPA离线部署从依赖打包到7×24无人值守踩坑与避坑方案

这三年,内网RPA项目接了不下二十个。每次开局都像闯关——断网、缺依赖、多机同步、定时执行、批量分发、源码保护、AI离线化,八个坑一个比一个深。今天把这些实战经验整理出来,希望能帮正在内网搞自动化的兄弟们少踩点雷。 一、内网无网络环境怎么部署RPA流程:先搞清楚什么叫“真离线” 很多工具宣传“支持本

水利工程师用WorkBuddy写洪水报告效率提升3倍
AI教程 · 2026-07-02

水利工程师用WorkBuddy写洪水报告效率提升3倍

WorkBuddy开发者分享季 水利工程师AI提效实战:用WorkBuddy撰写洪水影响评价报告,效率提升3倍 WorkBuddy 效率 人工智能 开发工具 一、我是谁,为什么需要AI 先介绍一下自己——我是一名水利工程师,在湖南长沙的一家小型水利设计公司任职。当前行业环境不太

日志服务数据加工规则洞察仪表盘使用指南
AI教程 · 2026-07-02

日志服务数据加工规则洞察仪表盘使用指南

数据加工诊断仪表盘 想实时掌握日志服务加工功能的运行状态?直接从加工列表页点击那个“规则洞察”按钮,仪表盘就会立刻呈现出来。入口就在那儿,不绕弯子。 跳转后,你可以按作业名称、实例ID或源LogStore来筛选任务状态。比如下边这张图,展示的是当前实例ID(90c9d47714dbb807d47c1

基于RFID的固定资产管理系统技术架构与工程实践
AI教程 · 2026-07-02

基于RFID的固定资产管理系统技术架构与工程实践

固定资产管理难题是众多企事业单位的普遍困扰,资产数量动辄数千件,且广泛分布于不同部门、楼层乃至园区。传统人工盘点方式在工程维度上始终面临三大关键瓶颈:采集效率低下、数据闭环中断、状态同步滞后。使用条码枪逐一扫描标签,识别距离通常不超过30厘米,操作人员需逐个寻找并扫描,盘点效率完全受限于人力。面对5

WorkBuddy实战用AI搭建A股智能盯盘助手省心高效
AI教程 · 2026-07-02

WorkBuddy实战用AI搭建A股智能盯盘助手省心高效

炒股的朋友们想必都深有体会——每天重复盯盘、查行情、分析板块轮动,这一整套流程下来耗费大量精力。手动翻查数据不仅身心俱疲,还很容易错过关键买卖节点。今天我们就来聊聊如何打造一款趁手的盯盘工具,借助AI替你分担这些重复性工作。 背景:盯盘的核心痛点 股民都有同感——每天不只要查询单只股票的实时行情,还