首页 游戏 软件 资讯 排行榜 专题
首页
AI
我把 Anthropic 的 Harness 工程思想做成了一个 Skill

我把 Anthropic 的 Harness 工程思想做成了一个 Skill

热心网友
21
转载
2026-04-06

用AI写代码,难在哪儿?

用AI生成代码本身并不难,真正的挑战在于让它稳定地交付一个真正可用的东西。这篇文章,我们就来聊聊Anthropic工程团队是如何破解这个难题的,以及我如何将这套方法论落地成了一个可以复用的实战工具。

用 AI 写代码有多难?不是写不出来难,是让它稳定交付可用的东西很难。这篇文章说说 Anthropic 工程团队的解法,以及我怎么把它落成了一个可以复用的 Skill。

今年三月,Anthropic的工程博客发表了一篇重磅文章:《Harness design for long-running application development》。

作者Prithvi Rajasekaran开篇就点明了核心:

Harness design is key to performance at the frontier of agentic coding.

说白了,框架设计的好坏,直接决定了AI在复杂代码任务上的表现天花板。

研读之后,我花了几天时间将这套思想工程化,落地为一个可以直接调用的WorkBuddy Skill,并开源在GitHub上。接下来,就详细说说背后的思考与具体的实现路径。

01 前沿团队遇到了什么“坑”?

但凡用过AI辅助编程的开发者,大概都经历过这种绝望:AI信誓旦旦地说代码写完了,可你一运行,界面没反应、数据没存上、错误不提示……功能根本跑不通。

更让人头疼的是,AI还特别善于“礼貌地敷衍你”。它总是回复“好的,已修复”,但下一轮迭代,同样的问题又会换个方式冒出来。

Anthropic的工程团队在用Claude进行长周期Web应用开发时,系统性地遇到了上述所有问题。他们一针见血地指出:AI执行长任务时,核心挑战早已不是“能否生成代码”,而是“生成的代码是否可靠”。

上下文溢出、自我评估失真、任务状态在对话中丢失——任何一个环节出错,都足以让整个开发流程崩盘。尤其是让同一个Agent既写代码又评估代码,结果往往是“自己给自己放水”,代码描述写得天花乱坠,实际功能一塌糊涂。

他们的解决方案,从生成对抗网络(GAN)中获得了灵感:将“生成”与“评估”这两个角色彻底分离。

一个智能体专心创造,另一个智能体专注挑刺。两者之间用明确的“迭代契约”来约定交付标准,并且,评估者必须通过Playwright等工具进行真实的端到端测试,而不是对着代码凭空臆测。

⚡ 核心洞察
将执行者和评判者分离,是解决AI自评估失真的关键杠杆。这相当于为开发流程引入了天然的制衡机制。

02 从理论到工具:如何构建可复用的技能?

Anthropic的文章精辟地阐述了设计原则,但并未提供开箱即用的工具。我的工作就是把这套原则“编码”成具体的约束条件,并结合规划、前端设计、全栈开发等其他技能,打包成一个完整的WorkBuddy Skill,让AI在任何新项目中都能自动遵循这套高可靠性的工作流。

Web Harness 工作流示意图

整个框架围绕三个核心角色展开:

规划者(Planner):负责将用户一两句话的模糊需求,扩展成完整的产品规格说明书,并拆解为结构化的功能清单。每个功能都明确包含描述、优先级、端到端测试步骤以及初始状态标记。

这里有一条硬性规则:草稿完成后必须暂停,输出结构化摘要等待用户明确确认。方向一旦跑偏,后续所有努力都可能白费。在规划阶段对齐,成本远低于开发到一半再推倒重来。

实现者(Generator):按照严格的测试驱动开发节奏,增量式实现功能。每个功能的开发都必须经历六个不可跳过的步骤:选择功能、创建特性分支、先写失败测试、实现代码让测试通过、端到端验收、合并代码并打标签。

其中第三步——“先写失败的测试”——至关重要。这个TDD约束从根本上解决了“AI宣称完工”的问题:测试红灯,就是未完成;测试绿灯,才算真完成。状态完全通过仓库文件同步,不依赖脆弱的对话历史。

验收者(Evaluator):这是一个完全独立的角色,使用浏览器自动化工具进行端到端测试、截图存证,并从四个维度进行打分。任何一项低于及格线,该功能就会被标记为失败,实现者无权自行评判。

这三个角色中,验收者的独立性是关键中的关键。代码好不好用,不是开发者自己说了算,而是由另一个“冷酷”的智能体,用真实的浏览器运行结果来裁决。

03 六道防线,堵住AI的“捷径”

设计一个工作流模型不难,难的是防止AI在各种现实场景中“偷懒”或“跑偏”。为此,框架内嵌了六道防线,每一道都针对一种常见的失败模式:

防线一:对抗上下文溢出。 多轮对话后,AI开始“遗忘”早期决策。解法是每一轮任务都开启全新的上下文窗口,所有状态通过版本库中的文件传递,让上下文负担归零。

防线二:杜绝虚假完工。 AI口头承诺已完成,实则功能残缺。解法是强制进行端到端测试,只有验收者签字确认,功能状态才能被标记为完成。

防线三:破除自评估放水。 自己评价自己,标准必然放松。解法是设立完全独立的验收者,并要求其提供浏览器截图作为客观证据。

防线四:打破设计模板化。 AI生成的界面往往千篇一律。解法是在前端设计引导中明确要求“规避通用AI模板”,鼓励加入定制化设计细节。

防线五:纠正方向跑偏。 规划阶段若自作主张,后期代价巨大。解法是规划草稿完成后强制暂停,必须获得用户对结构化摘要的明确确认。

防线六:化解合并冲突。 多智能体并行开发易产生代码冲突。解法是通过模块所有权划分、接口契约冻结和串行合并队列三层机制,来系统化管理并行开发。

04 实战检验:一个极简待办应用的诞生

框架设计得再好,也需要真刀真枪的实战检验。我使用这套框架完整开发了一个极简的待办清单Web应用,技术栈选用了React 18 + TypeScript + Vite,设计上追求极简的黑白灰风格,零UI库依赖。

待办应用界面截图

在规划阶段,需求被拆解为10个功能,并划分了优先级。用户确认规格后,实现者开始增量开发。

最终,7个核心功能全部交付,验收者运行了17条端到端测试全部通过,给出了10分的满分评价。

测试报告截图

整个过程中,没有一次代码被直接提交到主分支,也没有依赖对话历史来传递任务状态。

最直观的感受是,每一轮任务的边界都异常清晰。你清楚地知道这一轮要做什么、完成的标志是什么、由谁来确认。这种确定性,让AI的输出从“碰运气”变成了“可预期”。

项目完整代码和Skill本身均已开源,可供参考与实践。

05 来自前沿的两句箴言

Anthropic原文中有两句话,尤为值得铭记。

第一句,关于工程本质:

The key insight is that long-running agent tasks are not just “bigger” versions of single-turn interactions. They require fundamentally different engineering primitives: state management, error recovery, progress tracking, and independent evaluation.

长周期智能体任务,绝非单轮交互的简单放大。它需要一套完全不同的工程基础组件:状态管理、错误恢复、进度跟踪以及独立评估。而我们构建的框架,正是将这些“原语”转化为AI开发中的默认规则。

第二句,关于未来方向:

The space of interesting harness combinations doesn’t shrink as models improve. Instead, it moves, and the interesting work for AI engineers is to keep finding the next novel combination.

随着模型能力进化,有价值的框架组合空间不会缩小,而会发生转移。AI工程师的有趣工作,就在于持续寻找下一个新颖而有效的组合方式。

说到底,框架设计不是一劳永逸的解决方案。每一次模型能力的跃迁,都会让旧框架的某些部分过时,同时开启新的可能性。这是一个需要持续演进和创新的工程领域。

如果你也在使用AI进行全栈开发,并曾深受文章开头那些问题的困扰,那么这套框架或许值得一试。

把握AI浪潮:系统化学习路径参考

当前,AI大模型的浪潮已席卷各行各业。无论是企业转型还是个人职业发展,掌握相关技能都显得尤为重要。对于有技术背景,尤其是后端开发经验的朋友来说,转向AI大模型应用开发是一个高潜力的选择。

即便不考虑立即转岗,理解大模型、RAG、智能体等核心概念,并能动手完成简单项目,也无疑是简历上亮眼的加分项。

AI大模型学习路线概览

一份系统化的学习路径通常涵盖以下几个关键模块:

基础认知: 了解大模型核心原理、发展历程及主流模型特点。
核心技术: 深入掌握RAG、Prompt工程、智能体开发等实战模块。
开发基础: 巩固Python,学习API调用与大模型开发框架。
场景应用: 尝试开发智能问答、知识库、AIGC工具等实际项目。
全流程实践: 走通从需求拆解、技术选型到模型调优、上线运维的完整流程。
求职准备: 解析岗位要求,打磨项目经历,应对高频面试题。

上述每个模块都有扎实的内容需要消化。抓住时代机遇,系统化地构建知识体系,是在这波AI浪潮中保持竞争力的关键。

相关学习资料已整理,可通过官方渠道免费获取。

CSDN官方认证二维码

来源:https://blog.csdn.net/m0_59235245/article/details/159835076
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

热门视频播放器软件推荐与功能对比
游戏资讯
热门视频播放器软件推荐与功能对比

如今,视频内容早已成为我们数字生活的主角。从热播剧集到创意短剧,从演唱会直播到私人影音,选择一款合适的视频播放工具,成了不少人的刚需。然而,面对应用商店里琳琅满目的选择,如何找到既安全可靠、又功能趁手的那一个,确实需要一番考量。 今天,我们就来盘点几款各具特色的视频播放应用。它们有的以海量免费资源见

热心网友
05.18
梁晓解读数据服务如何赋能千行百业数智化转型
业界动态
梁晓解读数据服务如何赋能千行百业数智化转型

2026未来数商大会的核心议题,聚焦于“数据定义智能”。如何充分释放数据要素的核心价值,并以此驱动人工智能产业的突破性发展,成为全场关注的焦点。浙江电信大数据中心总经理梁晓在现场的分享,为我们勾勒了一幅来自运营商视角的实践蓝图。他的演讲《高质量数据服务推动千行百业升级——中国电信数据要素实践探索》,

热心网友
05.18
MySQL备份文件4.3G却占8G磁盘空间原因与解决方法
业界动态
MySQL备份文件4.3G却占8G磁盘空间原因与解决方法

先给结论:这次遇到的磁盘空间“虚高”问题,与备份损坏、磁盘故障或脚本Bug无关。其本质是XtraBackup的写入机制,遇上了Linux文件系统的“预分配”特性,两者叠加产生的一种正常现象。在数据库、大数据等处理大文件的场景中,判断磁盘真实容量,务必以du命令的统计为准。而在备份脚本中,只需简单地追

热心网友
05.17
2026年企业如何选择地理优化服务商实测与选型指南
业界动态
2026年企业如何选择地理优化服务商实测与选型指南

根据易观分析最新发布的《中国生成式引擎优化(GEO)行业发展白皮书 2026》,一个明确的信号已经释放:预计到2026年,中国GEO市场规模将突破30亿元大关,这一数字相比三年前实现了约35倍的惊人增长。更值得企业决策者关注的是,已有超过68%的中大型企业将GEO正式列入年度营销预算。市场热度持续攀

热心网友
05.17
Perplexity SQL查询超时优化方案与索引调整建议
AI
Perplexity SQL查询超时优化方案与索引调整建议

当你在Perplexity这类AI助手的帮助下生成SQL查询,兴冲冲地扔到生产环境执行时,最扫兴的莫过于看到那个熟悉的报错:查询超时。尤其是在面对千万级甚至亿级数据表时,一句逻辑上完全正确的SQL,也可能因为缺乏对执行效率的考量而瞬间“趴窝”。这背后的核心症结,往往在于提示词——你问得越模糊,AI给

热心网友
05.17

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

斯柯达晶锐Fabia Motorsport特别版车型正式发布
业界动态
斯柯达晶锐Fabia Motorsport特别版车型正式发布

为庆祝品牌投身赛车运动整整125年,斯柯达正式推出了晶锐Fabia Motorsport Edition特别版。这款车基于Fabia 130打造,设计灵感直接来源于征战赛场的Fabia RS Rally2拉力赛车,整体风格充满了对赛事历史的致敬意味。不过,得先说明白,它的升级重点主要落在了外观和底盘

热心网友
05.18
灰度以太坊质押ETF持仓超10万枚ETH 价值2.37亿美元
web3.0
灰度以太坊质押ETF持仓超10万枚ETH 价值2.37亿美元

Grayscale 通过其以太坊质押 ETF 质押了 102,400 个 ETH,价值 2 37 亿美元 先来看一组数据:资产管理巨头 Grayscale 最近通过其以太坊质押 ETF,一口气质押了超过10万个 ETH,价值约2 37亿美元。这个动作本身不小,但更有意思的是市场的后续反应——或者说,

热心网友
05.18
劳斯莱斯库里南防弹版发布 Inkas打造隐形防护座驾
业界动态
劳斯莱斯库里南防弹版发布 Inkas打造隐形防护座驾

劳斯莱斯库里南自问世以来,始终是超豪华全尺寸SUV领域的标杆。对于追求极致安全又不愿牺牲低调气质的高净值人士而言,如何实现“隐形”的顶级防护,一直是核心诉求。如今,加拿大专业防弹车制造商Inkas,以一款近乎“零痕迹”改装的库里南,给出了完美解决方案——一座移动的“隐形堡垒”。 区别于常见的外露装甲

热心网友
05.18
GTA5与荒野大镖客2高清复刻版或将登陆Switch平台
游戏资讯
GTA5与荒野大镖客2高清复刻版或将登陆Switch平台

新加坡维塔士工作室正考虑将《侠盗猎车手V》与《荒野大镖客:救赎2》移植至任天堂Switch平台。该团队拥有丰富的移植经验,曾成功负责多款游戏的跨平台适配。这两款作品全球销量巨大,若能登陆Switch,其便携特性可能成为新的市场增长点。

热心网友
05.18
大众ID. Polo GTI全球首发亮相 高尔夫GTI刷新纽北赛道纪录
业界动态
大众ID. Polo GTI全球首发亮相 高尔夫GTI刷新纽北赛道纪录

当高尔夫GTI迎来五十周年里程碑,传奇的纽博格林北环赛道成为其致敬历史与展望未来的最佳舞台。这里不仅铭刻了燃油性能图腾的巅峰时刻,也正式开启了电动GTI的新纪元。近日,大众汽车正式宣布,高尔夫GTI 50周年版在纽北创下全新纪录,荣膺最快前驱量产车称号;与此同时,品牌首款纯电动GTI车型——ID

热心网友
05.18