Anthropic内部人员揭露Agent闭环真相：Claude合并80%代码_AI热点日报

Anthropic内部人员揭露Agent闭环真相：Claude合并80%代码

类型：热点整理2026-06-29

最近，Anthropic 的产品研究经理 Theodora（Theo）Chu 在一次公开发言中引发了行业内的高度关注。Theo 直言不讳地指出，如今开发者早已不止是“听说过 Claude”，而是切实感受到它在日常工作中带来的效率飞跃——有用户反馈工作时间缩减了一半，也有人表示效率提升了十倍。更重要的

最近，Anthropic 的产品研究经理 Theodora（Theo）Chu 在一次公开发言中引发了行业内的高度关注。Theo 直言不讳地指出，如今开发者早已不止是“听说过 Claude”，而是切实感受到它在日常工作中带来的效率飞跃——有用户反馈工作时间缩减了一半，也有人表示效率提升了十倍。更重要的是，Claude 已经深度融入 Anthropic 自身的工程流程——“Anthropic 内部超过 80% 的代码由 Claude 合并。”

这背后揭示了一个根本转变：AI 模型正从纯粹的“应答器”进化为能够闭环执行任务的“工作者”——它不再仅仅被动回答，而是在一个具备反馈、验证与修正机制的循环中持续运作。“Close the Loop（闭合循环），赋予模型自我检验输出结果的能力。” 这正是 Theo 整场演讲的核心命题：“你该如何接纳这个新范式？又该如何面向未来构建产品，而不是固守过去的设计逻辑？” 为此，她系统性地阐述了打造可自我进化的 Agent 的方法论——“真正的配置，是让 Claude 在循环机制、规划模式与动态工作流中持续运转。”

有网友评价说：“这比市面上大多数标价 300 美元的 Agent 课程更具实操价值。” 接下来，我们将深度解析这场演讲的关键内容。

一年内，模型失败率显著下降

Theo 借助 SWE-bench Verified 这一编程能力评估基准进行了说明。该基准由一系列真实的 GitHub Issue 构成，要求模型理解问题、修改代码并通过全部测试用例——真正解决问题。这是 Anthropic 内部衡量 Claude 编程能力的关键指标：一年前的 Sonnet 3.7 得分约 60%，而最新 Opus 4.8 已攀升至 88%。

这意味着一件事：一年前模型在同类任务中的失败频率，大约是当前版本的三倍。 这才是整场演讲最值得关注的重点——模型能力的进化，不只是“多答对几题”，更在于失败率正在急剧收敛。 只有失败率大幅降低，模型才真正具备承接长周期、高复杂度、贴近现实生产场景任务的可靠性。

更令人震撼的是，在最新的 Mythos 和 Fable 系列模型中，该基准已接近饱和——许多以往的高难度测试项，如今已难以有效区分不同模型的真实水平。这对开发者是一个明确信号：如果还在用 12 个月前的任务集来评估当下模型，极有可能严重低估它的实际能力边界。 而这种智能跃迁，主要体现在三大维度：

第一，先规划，再行动

Theo 对比了同一任务（重建 claude.ai 网站）在旧模型和新模型上的表现差异。旧模型典型行为是：不经过充分构思就开始大量编码、频繁调用工具，缺乏前置设计。结果界面看似合理，但功能无法闭环运行，交互缺失、逻辑断裂。“就像有些人组装宜家家具：不看说明书，直接闷头干；拼到一半发现方向错了，才想起该回头翻指南——但已经浪费了很多时间。” 而 Opus 4.8 为代表的新一代模型展现出显著的自适应思考能力：它会在内部反复推演具体规范，在预演阶段主动识别潜在漏洞——你甚至能在其推理过程中看到诸如“实际上……”或“算了，还是……”这类自我修正表达。这种“深思熟虑后再动手”的方式，极大提升了首次执行的成功率，显著减少了冗余工具调用和无效代码行数。因此，Theo 给开发者的首要建议是：为模型预留思考空间。

产品层面也应适配这一特性——比如引入自适应思考机制，允许模型自主判断是否需要思考以及思考深度。简单任务无需过度推理，但复杂任务必须保障充足的规划窗口。

第二，错误恢复与自我纠偏

过去很多 Agent 设计一门心思放在“拓展工具调用能力”上，但 Theo 说得直白：调用工具只是基本功，真正的分水岭是模型能不能识别自己犯了错。 旧模型常陷入“doom looping”困境：任务失败后，即便收到人类提示“换种方式试试”，或环境给出失败反馈，它仍大概率重复原有路径，无法跳出既定解法。新模型则展现出更强的反馈理解力与路径重构能力——它能解析失败原因，主动切换策略，尝试全新解题路径。此时模型不再只是指令执行器，而开始具备类人的容错与修复能力。

这对 Agent 产品的成败至关重要。只要任务链条足够长，错误就不可避免：代码编译失败、UI 元素点击无响应、测试未通过、用户否定反馈、环境返回异常……真正有价值的 Agent，不在于永不犯错，而在于犯错后能否自主恢复。Theo 强调：开发者需要重构模型所处的运行环境——让环境具备反馈能力，使模型清晰感知“哪里出了错”。

“这也意味着，模型不会因 doom looping 浪费大量 token，而是以更精简的 token 消耗完成任务。” 举例来说，如果你在构建一款应用生成 Agent，就应赋予它访问前端界面的权限——让它能自行点击、实时校验按钮状态、判断页面渲染是否正常。唯有获得这些真实验证信号，模型才可能形成完整闭环：执行 → 验证 → 修正 → 再执行。 而这，也正是那位网友强调的核心理念：close the agent loop（闭环智能体循环）——“Loop 架构的本质，是让模型有能力验证自己的输出。”

第三，模型在超长任务周期中保持稳定表现

旧模型在处理长周期任务时，常出现“主线丢失”现象：用户下达复杂指令后，模型执行中途就遗忘原始目标，或在上下文推进中逐渐偏离核心约束。而当前模型已在长程任务的语义连贯性上取得突破，可稳定维持百万级 Token 乃至更高量级的上下文注意力。这意味着开发者无需再将上下文机械切片，而是可直接向模型交付整个代码库。

未来更优的做法是：交付更完整的任务单元。 比如输入整套代码库而非单个文件；提供完整产品需求文档而非孤立函数签名；驱动端到端流程而非仅执行局部步骤。当规划力、纠错力与长上下文能力三者叠加，Agent 的形态将发生质变——它可以先制定计划，再启动执行；执行后借助工具或人工反馈验证；发现问题后动态调整策略，继续推进。这种循环不断迭代，直到任务彻底闭环。

开发者如何面向未来构建产品？

随着模型智能持续升级，用户已经能放心让它运行更长时间，且任务完成质量和效率都远超以往。那么，从落地层面出发，开发者到底该如何为这个“正在加速到来的未来”构建产品？也就是：如何为日益强大的模型设计下一代产品？Theo 提出，研发战术需要在产品与工程两个维度同步升级。

一、保持战略雄心，动态更新评估体系（Evals）

首先，要更大胆地探索 Claude 的能力边界——避免停留在“它 12 个月前就能做的事”上，转而聚焦“它今天尚未攻克、但用户未来真正需要的任务”。其次，模型快速迭代下，开发者容易陷入一种认知偏差：“新模型似乎没明显进步”。但真相往往不在模型本身，而在 Evals。Theo 提到，有客户在新模型上线后反馈：“我们的 Evals 仅提升 1%，看来模型没怎么变强。” 可实际部署后却发现，模型在多项关键能力上突飞猛进——只因原有 Evals 完全没覆盖这些维度。这印证了一个事实：Evals 同样会过时。 在 AI 时代，Evals 类似于单元测试：既用来验证模型是否具备某项能力，也用来追踪模型演进对用户体验的实际影响。但一个高质量的 Eval，不应只测模型“已掌握什么”，更应包含那些“尚未完全解决、却代表未来体验刚需”的任务。换言之，Evals 必须面向未来设计。 不能只盯着当下用户痛点，而应将近期高频失败案例以及产品长期演进方向，系统性纳入测试用例。一旦发现某些历史难题已被攻克，就及时替换为更具挑战性的新题目。

二、精简“脚手架”（Shrink the Scaffolding）

Theo 反复强调的另一关键原则是：shrink your scaffolding——削减围绕模型搭建的冗余结构。所谓“脚手架”，是指开发者为弥补旧模型缺陷而附加的一系列工程补丁：包括复杂系统提示词、外部工具链、代码 Harness、硬编码约束规则等。例如模型某次引用格式出错，就加一条正则校验；某次忽略指令，就追加一段强化约束；某次工具调用失败，就在外层嵌套更多容错逻辑……这些补丁在旧模型时代或许必要，但在新模型指令遵循能力大幅提升后，反而可能成为干扰源。

Theo 分享了 Anthropic 自身的一个典型案例：团队一度认为新模型在 claude.ai 的引用功能上存在 Bug，经排查才发现，是新模型过于严格地执行了一条早已过时、埋藏在系统提示词深处的引用格式指令。最终只需要删除那行冗余提示，功能就恢复正常。这说明：开发者应以终态意图为导向编写简洁提示词，清晰定义期望结果，而不是基于过往模型失败经验层层加码。给模型“松绑”，精简脚手架，才能真实触达它的能力天花板。

三、闭环设计，让模型验证自身输出

仅靠思考不足以支撑复杂任务，模型还需要具备行动能力。 这是构建自进化 Agent 的底层基石。既然模型已具备强大纠错能力，工程实现就必须落实“闭环智能体循环”（Close the Agent Loop）：第一，为模型保留思考与行动的空间——引入自适应思考机制，在产品设计中支持模型前置推理；还可通过“投入度拨盘（Effort Dial）”机制，允许模型根据任务复杂度自主调节思考强度。第二，以可控方式开放高权限——要释放 Agent 的自主性，就必须赋予它在环境中执行操作的权限。Anthropic 在 Claude Code 中推出的“自动模式”分类器，就是在“开发者控制权”与“模型自主权”之间取得平衡，智能识别安全可行的操作，防范误删、误改等高风险行为。第三，配备自我质检工具——应为 Agent 集成如 “Computer Use” 这类自动化验证能力，使其能自主操作前端界面、执行点击测试、校验渲染效果，并依据真实环境反馈定位缺陷，进而驱动代码的自我迭代与修复。

以上，就是这场演讲中最值得反复咀嚼的内容。

来源：https://www.php.cn/faq/2729677.html?uid=1246273

Anthropic

延伸阅读

补充最近整理过的热点入口。