游乐游手机版
首页/AI热点日报/热点详情

Anthropic内部人员揭露Agent闭环真相:Claude合并80%代码

类型:热点整理2026-06-29
最近,Anthropic 的产品研究经理 Theodora(Theo)Chu 在一次公开发言中引发了行业内的高度关注。Theo 直言不讳地指出,如今开发者早已不止是“听说过 Claude”,而是切实感受到它在日常工作中带来的效率飞跃——有用户反馈工作时间缩减了一半,也有人表示效率提升了十倍。更重要的

最近,Anthropic 的产品研究经理 Theodora(Theo)Chu 在一次公开发言中引发了行业内的高度关注。Theo 直言不讳地指出,如今开发者早已不止是“听说过 Claude”,而是切实感受到它在日常工作中带来的效率飞跃——有用户反馈工作时间缩减了一半,也有人表示效率提升了十倍。更重要的是,Claude 已经深度融入 Anthropic 自身的工程流程——“Anthropic 内部超过 80% 的代码由 Claude 合并。”

这背后揭示了一个根本转变:AI 模型正从纯粹的“应答器”进化为能够闭环执行任务的“工作者”——它不再仅仅被动回答,而是在一个具备反馈、验证与修正机制的循环中持续运作。“Close the Loop(闭合循环),赋予模型自我检验输出结果的能力。” 这正是 Theo 整场演讲的核心命题:“你该如何接纳这个新范式?又该如何面向未来构建产品,而不是固守过去的设计逻辑?” 为此,她系统性地阐述了打造可自我进化的 Agent 的方法论——“真正的配置,是让 Claude 在循环机制、规划模式与动态工作流中持续运转。”

有网友评价说:“这比市面上大多数标价 300 美元的 Agent 课程更具实操价值。” 接下来,我们将深度解析这场演讲的关键内容。

一年内,模型失败率显著下降

Theo 借助 SWE-bench Verified 这一编程能力评估基准进行了说明。该基准由一系列真实的 GitHub Issue 构成,要求模型理解问题、修改代码并通过全部测试用例——真正解决问题。这是 Anthropic 内部衡量 Claude 编程能力的关键指标:一年前的 Sonnet 3.7 得分约 60%,而最新 Opus 4.8 已攀升至 88%。

这意味着一件事:一年前模型在同类任务中的失败频率,大约是当前版本的三倍。 这才是整场演讲最值得关注的重点——模型能力的进化,不只是“多答对几题”,更在于失败率正在急剧收敛。 只有失败率大幅降低,模型才真正具备承接长周期、高复杂度、贴近现实生产场景任务的可靠性。

更令人震撼的是,在最新的 Mythos 和 Fable 系列模型中,该基准已接近饱和——许多以往的高难度测试项,如今已难以有效区分不同模型的真实水平。这对开发者是一个明确信号:如果还在用 12 个月前的任务集来评估当下模型,极有可能严重低估它的实际能力边界。 而这种智能跃迁,主要体现在三大维度:

第一,先规划,再行动

Theo 对比了同一任务(重建 claude.ai 网站)在旧模型和新模型上的表现差异。旧模型典型行为是:不经过充分构思就开始大量编码、频繁调用工具,缺乏前置设计。结果界面看似合理,但功能无法闭环运行,交互缺失、逻辑断裂。“就像有些人组装宜家家具:不看说明书,直接闷头干;拼到一半发现方向错了,才想起该回头翻指南——但已经浪费了很多时间。” 而 Opus 4.8 为代表的新一代模型展现出显著的自适应思考能力:它会在内部反复推演具体规范,在预演阶段主动识别潜在漏洞——你甚至能在其推理过程中看到诸如“实际上……”或“算了,还是……”这类自我修正表达。这种“深思熟虑后再动手”的方式,极大提升了首次执行的成功率,显著减少了冗余工具调用和无效代码行数。因此,Theo 给开发者的首要建议是:为模型预留思考空间。

产品层面也应适配这一特性——比如引入自适应思考机制,允许模型自主判断是否需要思考以及思考深度。简单任务无需过度推理,但复杂任务必须保障充足的规划窗口。

第二,错误恢复与自我纠偏

过去很多 Agent 设计一门心思放在“拓展工具调用能力”上,但 Theo 说得直白:调用工具只是基本功,真正的分水岭是模型能不能识别自己犯了错。 旧模型常陷入“doom looping”困境:任务失败后,即便收到人类提示“换种方式试试”,或环境给出失败反馈,它仍大概率重复原有路径,无法跳出既定解法。新模型则展现出更强的反馈理解力与路径重构能力——它能解析失败原因,主动切换策略,尝试全新解题路径。此时模型不再只是指令执行器,而开始具备类人的容错与修复能力。

这对 Agent 产品的成败至关重要。只要任务链条足够长,错误就不可避免:代码编译失败、UI 元素点击无响应、测试未通过、用户否定反馈、环境返回异常……真正有价值的 Agent,不在于永不犯错,而在于犯错后能否自主恢复。Theo 强调:开发者需要重构模型所处的运行环境——让环境具备反馈能力,使模型清晰感知“哪里出了错”。

“这也意味着,模型不会因 doom looping 浪费大量 token,而是以更精简的 token 消耗完成任务。” 举例来说,如果你在构建一款应用生成 Agent,就应赋予它访问前端界面的权限——让它能自行点击、实时校验按钮状态、判断页面渲染是否正常。唯有获得这些真实验证信号,模型才可能形成完整闭环:执行 → 验证 → 修正 → 再执行。 而这,也正是那位网友强调的核心理念:close the agent loop(闭环智能体循环)——“Loop 架构的本质,是让模型有能力验证自己的输出。”

第三,模型在超长任务周期中保持稳定表现

旧模型在处理长周期任务时,常出现“主线丢失”现象:用户下达复杂指令后,模型执行中途就遗忘原始目标,或在上下文推进中逐渐偏离核心约束。而当前模型已在长程任务的语义连贯性上取得突破,可稳定维持百万级 Token 乃至更高量级的上下文注意力。这意味着开发者无需再将上下文机械切片,而是可直接向模型交付整个代码库。

未来更优的做法是:交付更完整的任务单元。 比如输入整套代码库而非单个文件;提供完整产品需求文档而非孤立函数签名;驱动端到端流程而非仅执行局部步骤。当规划力、纠错力与长上下文能力三者叠加,Agent 的形态将发生质变——它可以先制定计划,再启动执行;执行后借助工具或人工反馈验证;发现问题后动态调整策略,继续推进。这种循环不断迭代,直到任务彻底闭环。

开发者如何面向未来构建产品?

随着模型智能持续升级,用户已经能放心让它运行更长时间,且任务完成质量和效率都远超以往。那么,从落地层面出发,开发者到底该如何为这个“正在加速到来的未来”构建产品?也就是:如何为日益强大的模型设计下一代产品?Theo 提出,研发战术需要在产品与工程两个维度同步升级。

一、保持战略雄心,动态更新评估体系(Evals)

首先,要更大胆地探索 Claude 的能力边界——避免停留在“它 12 个月前就能做的事”上,转而聚焦“它今天尚未攻克、但用户未来真正需要的任务”。其次,模型快速迭代下,开发者容易陷入一种认知偏差:“新模型似乎没明显进步”。但真相往往不在模型本身,而在 Evals。Theo 提到,有客户在新模型上线后反馈:“我们的 Evals 仅提升 1%,看来模型没怎么变强。” 可实际部署后却发现,模型在多项关键能力上突飞猛进——只因原有 Evals 完全没覆盖这些维度。这印证了一个事实:Evals 同样会过时。 在 AI 时代,Evals 类似于单元测试:既用来验证模型是否具备某项能力,也用来追踪模型演进对用户体验的实际影响。但一个高质量的 Eval,不应只测模型“已掌握什么”,更应包含那些“尚未完全解决、却代表未来体验刚需”的任务。换言之,Evals 必须面向未来设计。 不能只盯着当下用户痛点,而应将近期高频失败案例以及产品长期演进方向,系统性纳入测试用例。一旦发现某些历史难题已被攻克,就及时替换为更具挑战性的新题目。

二、精简“脚手架”(Shrink the Scaffolding)

Theo 反复强调的另一关键原则是:shrink your scaffolding——削减围绕模型搭建的冗余结构。所谓“脚手架”,是指开发者为弥补旧模型缺陷而附加的一系列工程补丁:包括复杂系统提示词、外部工具链、代码 Harness、硬编码约束规则等。例如模型某次引用格式出错,就加一条正则校验;某次忽略指令,就追加一段强化约束;某次工具调用失败,就在外层嵌套更多容错逻辑……这些补丁在旧模型时代或许必要,但在新模型指令遵循能力大幅提升后,反而可能成为干扰源。

Theo 分享了 Anthropic 自身的一个典型案例:团队一度认为新模型在 claude.ai 的引用功能上存在 Bug,经排查才发现,是新模型过于严格地执行了一条早已过时、埋藏在系统提示词深处的引用格式指令。最终只需要删除那行冗余提示,功能就恢复正常。这说明:开发者应以终态意图为导向编写简洁提示词,清晰定义期望结果,而不是基于过往模型失败经验层层加码。给模型“松绑”,精简脚手架,才能真实触达它的能力天花板。

三、闭环设计,让模型验证自身输出

仅靠思考不足以支撑复杂任务,模型还需要具备行动能力。 这是构建自进化 Agent 的底层基石。既然模型已具备强大纠错能力,工程实现就必须落实“闭环智能体循环”(Close the Agent Loop):第一,为模型保留思考与行动的空间——引入自适应思考机制,在产品设计中支持模型前置推理;还可通过“投入度拨盘(Effort Dial)”机制,允许模型根据任务复杂度自主调节思考强度。第二,以可控方式开放高权限——要释放 Agent 的自主性,就必须赋予它在环境中执行操作的权限。Anthropic 在 Claude Code 中推出的“自动模式”分类器,就是在“开发者控制权”与“模型自主权”之间取得平衡,智能识别安全可行的操作,防范误删、误改等高风险行为。第三,配备自我质检工具——应为 Agent 集成如 “Computer Use” 这类自动化验证能力,使其能自主操作前端界面、执行点击测试、校验渲染效果,并依据真实环境反馈定位缺陷,进而驱动代码的自我迭代与修复。

以上,就是这场演讲中最值得反复咀嚼的内容。

来源:https://www.php.cn/faq/2729677.html?uid=1246273

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。