首页 游戏 软件 资讯 排行榜 专题
首页
AI教程
Anthropic Harness启示:AI Agent长跑,架构即天花板

Anthropic Harness启示:AI Agent长跑,架构即天花板

热心网友
67
转载
2026-05-28

一、先说一个反常识的现象

大多数人用 AI 编程时,最大的痛点往往不是模型不够聪明——而是任务跑到一半,Agent 就开始“迷路”了。

Anthropic 的 Harness 启示:当 AI Agent 开始「长跑」,架构才是真正的天花板

你给 Claude 或 GPT-4o 一个复杂需求,开头几步还算顺畅,可没多久它就开始自我矛盾,最后草草收场,扔给你一堆残缺的代码说“需要你来完成剩余部分”。换一个更大的模型?情况可能会好一点,但问题的本质没变。

Anthropic 的工程师最近发表了一篇内部研究——《Harness Design for Long-Running Application Development》,算是把这个问题说透了:当模型能力达到一定水平,瓶颈就不再是模型本身,而是底层架构。

这篇文章想和你聊聊这份研究背后的工程逻辑,以及它能给我们日常用 AI 写代码带来什么启示。

二、两个让 Agent 失败的“死亡模式”

Anthropic 团队在研究里识别出 Agent 在执行长任务时的两种关键失效模式,可以说相当准:

失效模式一:上下文焦虑(Context Anxiety)

这个说法非常传神。当模型感知到上下文窗口快满了,它会开始“着急”——虽然没有真正的情绪,但行为会明显退化:开始走捷径、提前收尾、用“以下留给用户完成”来敷衍你。

这本质上不是一个 bug,而是特性。模型在训练过程中见过大量“上下文结尾处收敛”的示例,于是它学到的模式就成了:“快到结尾了,那就收尾吧。”

很多人直觉上会想到“压缩上下文”——让模型总结之前的内容,腾出空间来。但 Anthropic 的实验表明,上下文重置(Context Reset)效果远优于压缩:直接把窗口清空,将关键状态以结构化的 Artifact 形式传给新 Agent 实例,相当于给它一块干净的白板,让它重新出发。

失效模式二:自我评估偏差(Self-evaluation Bias)

让模型评估自己写的代码,结果几乎永远是“不错”。这不是因为它谦虚,而是训练数据里“确认偏见”的必然产物。

更麻烦的是,在涉及 UI 设计这类主观任务时,模型对“好不好看”根本没有可靠的判断力。你问它“这个界面够不够好”,它会告诉你“看起来很不错,符合现代设计趋势”——因为它根本不知道“不好”的判据是什么。

解决思路是:把“执行者”和“评估者”分离开,并且对评估者做专项调优。让它学会怀疑,学会挑剔,学会给出 1 到 10 分的量化评分,而不是模糊的正面反馈。

三、GAN 思路移植到 Agent 架构

Anthropic 的解决方案,本质上把生成对抗网络(GAN)的思路搬到了 Agent 编排层面。

用户需求产品规格规划者 Planner扩展为完整规格书生成者 Generator按 Sprint 实现功能
↓ 初步自评通过
交付 / 下一 Sprint达标?未达标则返回 Generator评估者 EvaluatorPlaywright QA + 打分批评

这个架构里有几个关键设计决策值得拆开来看:

规划者不过度规定细节。规格书只写“是什么”和高层技术方向,不写“怎么做”的具体步骤。过度规定会导致错误级联——一旦某个底层实现有偏差,整份规格书就废了。

冲刺合同(Sprint Contract)机制。每个 Sprint 开始前,生成者和评估者先“谈判”:生成者提出本次 Sprint 要做什么、用什么标准来验证,评估者审核并确认。这个机制确保双方对“完成”的定义一致,避免后期扯皮。

评估者用工具验证,而不是靠“感觉”。用 Playwright 模拟用户操作、验证 API endpoint、检查数据库状态——这才是可信的评估,而不是让另一个模型看一眼代码就说“好的”。

四、前端设计的量化难题

最有意思的部分,是它们如何解决前端 UI 设计中的主观质量问题。

他们把“好设计”拆解成四个可以打分的维度,把主观审美翻译成了评估者能操作的量化准则。评估者使用 Playwright 实际截图,分析视觉层级和交互逻辑,而不是仅靠 HTML 代码去推断效果。

结果相当有趣。在一个博物馆网站案例里,模型在第 10 次迭代时做出了一个出人意料的选择:没有继续优化常规布局,而是把整个页面重构成了一种带 CSS 透视感的 3D 空间交互体验。这不是被指定的,而是迭代反馈自然引出的。

这说明什么?当评估准则足够清晰,模型会朝着高分方向自主探索,而不是沿着“最安全”的路径前进。给 AI 明确的标准,它会超出你的预期。

五、两个真实项目的对比数据

数据最能说明问题。研究里给出了两个案例,很有参考价值:

案例一:2D 复古游戏制作器(Claude 4.5 时代)

模式用时成本结果质量
Solo(直接让模型完成)20 分钟$9布局粗糙,工作流僵硬,游戏逻辑断裂
Harness 架构6 小时$200功能完整(含 AI 生成关卡工具),经过 27 项细粒度测试

案例二:数字音乐工作站 DAW(Claude 4.6 时代)

指标数值
用时约 4 小时
成本$124.70
交付内容编排视图 + 混音器 + 自主 AI 编曲 Agent,核心功能可用
存在问题音频捕获等底层硬件交互仍有 stub 代码

六、模型升级如何改变架构复杂度

研究里还有一个很有价值的观察:架构不是一成不变的,模型能力的提升会直接简化架构需求。

在 Claude 4.5 时代,上下文焦虑问题严重,必须强制使用 Sprint 分解 + 上下文重置。到了 4.6,模型改进了长上下文检索和代码连续性,于是:

• 删除了强制性的上下文重置,改用 SDK 的自动压缩
• 取消了强制 Sprint 分解,模型可以连续运行数小时
• 评估者从“每个 Sprint 都检查”变为“任务末尾做最终质量检查”

这给了我们一个启示:如果你正在设计一个 Agent 系统,不要过度工程化。先把架构做到刚好够用,随着模型迭代及时精简。过早的复杂度,最后都是维护负担。

七、这对日常开发者意味着什么

读完这份研究,有几条原则可以直接落地:

原则一:给 AI 任务切片,不要一次性扔进去

Sprint 模式的核心不在于架构复杂度,而在于把“一个大任务”变成“一系列有明确验收标准的小任务”。即便你没有三 Agent 系统,用 Claude Code 或 Cursor 时,手动切 Sprint、每次只推进一个功能点,效果也会好很多。

# 不好的做法:扔一个大需求prompt = """帮我实现一个完整的用户管理系统,包括注册、登录、权限控制、用户列表、搜索、导出 CSV、发送邮件通知、操作日志…"""# 好的做法:明确的 Sprint 定义sprint_1 = """本次 Sprint 目标:实现用户注册 API验收标准:1. POST /api/register 接受 {email, password}2. 密码 bcrypt 加密存储3. 邮箱唯一性校验,重复返回 4094. 成功返回 201 + userId5. 有对应的单元测试,覆盖正常路径和边界情况"""

原则二:不要让 AI 自己评估自己的输出

如果你用 Claude 写了一段代码,不要直接问它“这段代码有问题吗”——它大概率会告诉你没问题。换一种方式:

# 不好:让模型自评"你刚才写的这段代码有没有问题?"# 好:给评估者角色 + 具体维度"""你是一位严苛的 code reviewer,专门找问题。请从以下维度评估这段代码:1. 是否有潜在的竞态条件2. 错误处理是否完整3. 是否有 N+1 查询问题4. 有没有安全漏洞(SQL 注入、XSS 等)每个维度给出 1-5 分,分数越低越好(1=没问题,5=严重问题),并列出具体的问题行号。"""

原则三:用工具验证,不用模型“感觉”验证

Anthropic 用 Playwright 做 UI 验证,这个思路可以推广:能运行的测试,远胜于模型的文字确认。

Claude Code 现在已经支持在本地跑测试、读错误日志、自动修复。把测试写好,让 Agent 跑完之后看测试结果,而不是看它自己的描述。这才是可信的验证闭环。

# 在 Claude Code / Cursor 里,明确要求验证闭环"""实现完成后,请:1. 运行 `npm test` 查看测试结果2. 如果有失败的用例,先修复再告诉我3. 最后给我看测试通过的截图(或命令输出)不要只告诉我"已完成",要有可验证的证据"""

原则四:重置上下文,不要无限续写

一个 session 跑了很久开始漂移?别硬撑,直接开新对话。把当前状态用结构化的 Artifact 总结出来,传给新 session:

# 上下文重置 Artifact 模板状态快照(交接给新 Session):## 项目:[项目名称]## 当前阶段:Sprint 3 / 共 5 个 Sprint## 已完成- [x] 用户注册 API(tests passing)- [x] 用户登录 API + JWT 签发(tests passing)## 当前 Sprint 目标实现权限中间件(RBAC),支持 admin / editor / viewer 三种角色## 关键约定- 数据库:PostgreSQL,ORM 用 Drizzle- 认证:JWT,secret 在 env.JWT_SECRET- 测试框架:Vitest## 遗留问题- 登录 API 的 refresh token 逻辑 stub 了,后续 Sprint 补## 下一步实现 `authMiddleware(requiredRole)` 函数,挂到需要权限的路由上

八、一个更大的问题:架构师的角色在变

Harness 研究的深层含义,远不止于“怎么写 prompt”。它在告诉我们:当 Agent 的执行能力越来越强,软件开发的核心竞争力正在向“能不能设计出好的 Agent 协作架构”转移。

以前写代码,架构师设计模块边界,程序员填充实现。现在这个分工在变:架构师设计 Agent 协作边界,AI 填充实现。技能树在迁移,但“系统思维”这条根始终没变。

这句话值得记住。别迷信架构,但也别轻视架构。知道什么时候该加、什么时候该减,才是真正的工程判断力。

九、值得继续探索的方向

如果你对这个方向感兴趣,接下来有几个问题值得深挖:

Sprint Contract 的最优粒度是多少?太细了 overhead 太大,太粗了失控风险高。可能跟行业或项目类型有关,值得系统地收集最佳实践。

评估者的提示词该怎么设计,才能让它真正“怀疑”?Anthropic 提到对评估者做了“怀疑论调优”,但细节没有完全公开。这完全可以自己动手实验。

成本控制和质量之间的 Pareto 前沿在哪里?9vs9 vs 200 是两个极端,中间有没有一个“性价比最优点”?答案可能跟任务类型高度相关。

开源的 Harness 框架会不会出现?目前 LangGraph、CrewAI、AutoGen 都在做类似的事,但 Anthropic 这套思路还没有完整的开源对应物。如果有人做出来,值得重点关注。

Agent 编程还在非常早期的阶段。今天的最佳实践,六个月后可能就已经过时。但理解“为什么这么设计”,远比记住“怎么做”更重要。模型会变,但架构思维的底层逻辑不会变。

— 完 —

来源:https://juejin.cn/post/7621551215503343659
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Anthropic新AI聊天机器人模型声称在多项测试中击败OpenAI GPT-4
AI资讯
Anthropic新AI聊天机器人模型声称在多项测试中击败OpenAI GPT-4

2024年3月5日,人工智能领域迎来了一位重要参与者——由OpenAI前员工创立的Anthropic公司正式推出了Claude 3系列模型。这次发布极具分量:新模型不仅在性能上与Google和OpenAI的顶级产品并驾齐驱,部分指标甚至实现超越。要理解此次升级的真正价值,先关注几个关键变化。首先是多

热心网友
05.28
用20%工资买Token 开源大神称OpenAI和Anthropic获PMF
AI资讯
用20%工资买Token 开源大神称OpenAI和Anthropic获PMF

开源大神指出,OpenAI和Anthropic通过ClaudeCode等深度嵌入工作流的Agent产品找到了产品市场契合点。企业客户每月支付200美元以上,个人订阅超值但推理成本高昂,需知识工作者投入5%薪水、开发者20%薪水。中国模型因训练成本摊销差异而价格低廉,AI巨头正去中间化直接服务企业。

热心网友
05.28
前OpenAI联合创始人Karpathy加入Anthropic
科技数码
前OpenAI联合创始人Karpathy加入Anthropic

前OpenAI联合创始人安德烈·卡帕西于5月19日宣布入职Anthropic,将组建团队并依托Claude模型推进预训练研究,主攻方向为递归自我改进技术。卡帕西曾主导特斯拉自动驾驶视觉业务,技术实力备受业界推崇。

热心网友
05.28
教皇通谕与AI伦理探讨人类在人工智能时代的本质
AI资讯
教皇通谕与AI伦理探讨人类在人工智能时代的本质

教皇发布首份AI通谕《壮丽的人类》,呼吁在人工智能时代捍卫人类尊严,警惕技术非中立与数字奴役,并约束AI军事化。Anthropic创始人强调AI需引入外部道德审视,各界应共同应对伦理挑战。面对可能超越人类的智能,守护人性价值已成文明关键议题。

热心网友
05.28
Anthropic新模型Mythos发布在即 安全担忧引关注
AI资讯
Anthropic新模型Mythos发布在即 安全担忧引关注

近日,AI安全领域一则消息引发广泛关注:Anthropic公司备受瞩目的前沿安全模型Claude Mythos,距离正式公开似乎已近在咫尺。 据科技媒体Testingcatalog报道,多项迹象表明,Anthropic正着手推进Claude Mythos预览版的公开部署。这并非一次普通的迭代更新,M

热心网友
05.28

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Paralives首发销量充足 支撑后续开发无需DLC
游戏攻略
Paralives首发销量充足 支撑后续开发无需DLC

《Paralives》开发商承诺所有后续更新永久免费,拒绝付费DLC模式。15人小团队依靠首发销售额即可支撑多年运营,无需依赖额外内容包维持开发,展现了与《模拟人生》系列不同的差异化竞争思路。

热心网友
05.28
比亚迪宋Ultra DM-i上市12.99万 承诺城市领航安全兜底
业界动态
比亚迪宋Ultra DM-i上市12.99万 承诺城市领航安全兜底

2025年5月28日,比亚迪王朝网全新力作——宋Ultra DM-i正式推向市场,共推出5款配置车型,官方售价区间为12 99万至15 99万元。此次定价策略极具突破性:一款拥有310公里纯电续航能力的中型插电混动SUV,直接下探至13万元级别市场。作为王朝网络的新旗舰,该车明确瞄准高频出行需求场景

热心网友
05.28
折叠屏iPhone Ultra外观已定,第三方保护壳亮相
科技数码
折叠屏iPhone Ultra外观已定,第三方保护壳亮相

先来关注一个有趣的细节:苹果首款折叠屏手机,传闻将于今年秋季正式亮相。产品命名可能为iPhone Ultra,也有媒体称之为iPhone Fold——无论最终叫什么,这都将标志着苹果在折叠形态领域首次“出手”。 近日,配件厂商iFunSmart已率先上架iPhone Ultra的首批保护壳——这绝非

热心网友
05.28
山寨币ETF批量上市后市场表现分析 哪些项目值得关注
web3.0
山寨币ETF批量上市后市场表现分析 哪些项目值得关注

山寨币ETF迎来批量上市潮,首批项目市场表现如何?一文分析 Binance币安 欧易OKX ️ Huobi火币️ 最近,市场出现了一个不容忽视的新动向:XRP、DOGE、LTC、HBAR等现货ETF已经悄然登陆美国市场。与此同时,A VAX、LINK等资产的同类产品也正在审批流程中。进入11月以来,

热心网友
05.28
即使在大幅涨价后 Steam Deck 玩家热情依旧再次售罄
游戏攻略
即使在大幅涨价后 Steam Deck 玩家热情依旧再次售罄

近日,公司对SteamDeck1TBOLED版涨价300美元至949美元,上架短短不到24小时便再度售罄。据外界分析,该公司从中国大量补货并分批投放库存,高溢价未影响众多玩家的抢购热情与速度,其人气极其旺盛无比足以支撑快速清空。

热心网友
05.28