Claude无需Harness工程产品负责人揭秘Agent基础设施难题_AI热点日报

Claude无需Harness工程产品负责人揭秘Agent基础设施难题

类型：热点整理2026-05-12

近日，Anthropic在Code with Claude开发者大会上正式推出Managed Agents的一系列关键功能，包括“梦境”（Dreaming）、多智能体编排与结果验收（Outcomes）。这标志着Claude智能体生态的“四件套”核心能力已完整构建，也引发了业界对Agent应用前景的深

近日，Anthropic在Code with Claude开发者大会上正式推出Managed Agents的一系列关键功能，包括“梦境”（Dreaming）、多智能体编排与结果验收（Outcomes）。这标志着Claude智能体生态的“四件套”核心能力已完整构建，也引发了业界对Agent应用前景的深度探讨。与此同时，Claude平台产品负责人Angela Jiang与工程负责人Katelyn Lesse在一场深度播客访谈中，全面分享了他们打造Managed Agents的初心、对行业演进方向的判断，以及智能体技术未来的发展蓝图。

这场对话信息密度极高，不仅阐明了Anthropic为何选择亲自构建基础设施层，更揭示了当前开发者在构建智能体时遇到的实际瓶颈——并非通常认为的提示词工程，而是复杂且棘手的基础设施挑战。更重要的是，她们描绘了一个清晰的未来愿景：在那里，智能体的构建与部署将变得异常简单，用户只需聚焦于“期望的结果”与“可控的预算”。

Claude 发展主线：持续增强自主性，为用户交付最优结果

播客从AI平台的演进路径开始探讨。主持人敏锐地观察到，从GPT-3时代的简单文本补全接口，到如今支持工具调用与会话状态的端点，再到Managed Agents这种“赋予模型一台完整电脑”的形态，平台的能力边界与设计哲学正在发生根本性转变。

Angela对此深表赞同。她指出，随着大语言模型（LLM）的能力日益强大、自主性不断提升，平台也必须向更高层级的抽象演进。其核心使命始终如一：让用户以最便捷的方式，通过模型获得最佳产出。在早期探索阶段，平台需要提供足够丰富的可能性与底层接口。如今，随着应用场景逐渐明晰，越来越多开发者开始构建实际产品与智能体，平台就需要整合状态管理、工具调用、云端执行等能力，将行业最佳实践以“开箱即用”的方式提供给所有用户，无论其是资深工程师还是入门新手。

告别重复造轮子：Managed Agents 诞生的根本动因

那么，Managed Agents具体提供了哪些“基础设施级组件”？Katelyn解释道，它构建于Messages API等现有组件之上，但深度集成了代码执行沙箱、联网搜索等关键能力，并将其封装在一套高可靠、可扩展的基础设施中，旨在直接交付Claude模型所能产生的最佳结果。

这背后源于Anthropic团队自身的切身体验。Angela坦言，构建稳定可靠的基础设施“过程非常痛苦”，团队在无数次迭代中踩过无数技术深坑。最终他们决定，与其让每个开发者都重复经历这种磨难，不如汇聚所有经验，打造一套真正高效易用的解决方案。对于小规模原型验证，几台本地服务器或许足够，但一旦需要投入生产环境并进行规模化部署，沙箱意外断开、内存状态丢失、异步任务处理等基础设施难题就会成为主要障碍。

因此，Managed Agents的设计哲学是“模块化封装”与“架构灵活性”的平衡。一方面，它在文件系统、技能（Skills）等核心组件上拥有明确的“技术定见”，确保与Claude模型深度协同优化；另一方面，它也保持了足够的开放性，允许用户集成自定义组件，并提供了详尽的技术博客与实现参考，方便那些希望基于Messages API自行构建定制化方案的开发者。

Harness 与模型深度耦合：为极致性能而优化

一个常见的疑虑是：使用Managed Agents是否会导致被“锁定”在Claude生态中，丧失技术灵活性？Angela承认这种担忧有其合理性，但她同时指出，整个行业的技术趋势正在悄然变化。

几个月前，构建一个通用的“Harness”（即驱动与调度模型的框架），并随时切换底层模型，仍是业界标准做法。但现在情况已有所不同。为了极致地挖掘每个模型的性能潜力，各大研究机构都在采用差异化的技术路径与视角进行“Harness工程”。这意味着，Harness与特定模型之间正在形成高度配对、深度定制的关系。

“各方都在试图压榨出每个模型的每一分性能潜力，”Angela举例说明，比如在Managed Agents中上线的“记忆”功能，采用不同的Harness设计方案会导致评估结果出现显著差异。这种为特定模型量身定制Harness以获取超额性能收益的做法，正逐渐成为新的行业常态。未来的模型切换更可能发生在“智能体”这个更高的应用层级，而非底层的通用Harness框架内。

路径选择与组件定义：塑造模型的未来轨迹

这种深度绑定是否会影响模型自身的发展方向与“个性特质”？两位负责人认为，答案是肯定的。在请求响应机制、工具调用范式等基础设计上做出的细微选择，都可能产生巨大的路径依赖效应，最终使得模型在特定任务赛道上表现更为突出。

因此，选择哪些能力作为“正确的基础组件”提供给模型，需要进行极其审慎的思考。是让模型更擅长复杂推理，还是让它更像一台高效可靠的计算机？不同的选择将导向截然不同的技术未来。虽然很难断言哪条路径绝对正确，但可以肯定的是，这些早期的架构决策将对生态发展产生深远影响。

Managed Agents 为谁服务？聚焦两类核心用户

Managed Agents究竟面向怎样的用户群体？Angela和Katelyn明确指出了两类核心受众。

第一类是构建复杂自动化工具或内部平台的企业团队。例如，希望打造一个端到端的AI辅助软件开发平台，或者自动化法务审核营销文案这类跨部门协作流程。对于后者，你无需从零开始实现内存管理、状态持久化等基础功能，可以快速启动项目。

第二类是将AI能力深度集成到自身产品中、并直接交付给终端客户的企业。他们通常需要大量的业务定制化，但其宝贵的工程资源应当聚焦于打造产品核心价值，而非消耗在基础设施维护与繁琐的Harness微调上。Managed Agents的核心目标，正是帮助他们卸下这部分重担。

从原型到产品：智能体落地的真正阻碍是基础设施

那么，构建一个可用的智能体，最大的难点究竟在哪里？与普遍认知不同，两位负责人指出，真正的瓶颈往往不是Harness工程或提示词技巧。

“许多人认为Harness工程是最复杂的部分，”Angela说，“但事实上，大量客户在将原型投入生产、进行规模化扩展时，都会撞上‘基础设施之墙’。”如何确保服务器常驻运行、如何安全持久地存储对话记录、如何构建隔离的代码执行沙箱环境、如何处理异步长任务……这些工程难题才是真正导致项目停滞的关键。原型可以快速搭建，但产品化之路，尤其是对于那些需要长时间运行、具备高度自主性的智能体而言，往往充满挑战。

OpenClaw：代表 Claude 进化的未来方向

谈及像OpenClaw这样能够一键部署到Slack等协作工具中、保持始终在线状态的智能体形态，Angela和Katelyn非常明确地表示，这绝对是Claude进化的重要方向。

当前阶段的工作重点在于解决基础设施的核心痛点，但长远目标正是让智能体部署变得极其简单。例如，已经推出的“保险库”（Vaults）功能用于安全存储API密钥等敏感信息，就是封装“智能体身份”与安全组件的初步尝试。未来的理想状态是，用户只需告诉Claude“添加到Slack”，它就能自动处理好所有集成配置，让智能体机器人无缝出现在团队协作环境中。

提升团队协作效率的 Agent 形态，仍在探索初期

目前，提升个人生产力的AI工具层出不穷，但上升到团队协作层面，复杂度和挑战便急剧增加。智能体不能仅运行在个人电脑上，它需要部署在一个整个团队都能安全访问、共同管理与控制的共享平台上。

这正是多智能体协作架构令人兴奋的原因。它需要比单一智能体更高层级的抽象，来协调多个智能体共同完成端到端的复杂业务流程。一些先锋公司正在探索的“AI软件工厂”模式，预示着AI将如何从根本上重塑组织层面的生产力范式，而不仅仅是提升个人效率。

内部实践：Agent 助力 Anthropic 法务审核营销文案

一个具体的内部应用案例是“法务审核营销文案”。营销人员撰写完文案后，无需手动提交工单或发送邮件请求审核，而是直接提交给一个专用的智能体应用。该智能体会进行初步合规性审查，或将文案连同预审意见自动放入法务团队的待办收件箱。这并非单个技能（Skill）就能完成的任务，因为它涉及启动独立的审核会话、可能需要人工介入确认，并且需要让不同角色（如营销人员与法务专员）在同一个系统中高效协同工作。

Anthropic 内部创新：业务团队自助修改 Agent

智能体构建完成后，由谁来负责持续的维护与更新？在Anthropic内部，出现了一种有趣的自助服务模式。当业务团队（例如法务部）希望调整某个智能体的行为逻辑时，他们可以直接通过Claude Code打开相关代码进行修改，并提交Pull Request。这虽然增加了基础设施团队的代码审核负担，但也极大地提升了业务响应的速度与灵活性。

当然，这要求企业内部拥有具备“AI素养”的技术平台团队来构建和维护核心系统，确保业务团队的自助修改不会引发稳定性或安全性的系统级问题。

对话驱动 Agent 修改：“套娃式” Managed Agents 架构

为了在灵活性与安全性之间取得平衡，Anthropic在实践中采用了“套娃”式的分层架构。业务人员并非直接修改底层核心代码，而是通过与一个专门的Claude实例（其本身也是一个托管智能体）进行对话来表达需求。这个Claude实例会理解用户的意图，并自主决定如何修改核心逻辑。底层可能是多个Claude智能体相互配合，共同完成复杂的代码变更工作，但对最终用户而言，交互界面仅仅是简单的自然语言对话。

多智能体编排的创新模式：角色分离、对抗审核与群体协作

新发布的多智能体编排功能，催生了许多创新的应用模式。开发者正在实验不同的“Harness策略”，例如：

顾问策略： 将“执行”与“建议”角色分离，由不同的智能体专精承担。
对抗模式： 一个智能体负责生成内容，另一个智能体则进行对抗性审核与批判。
蜂群模式： 将复杂任务拆解为众多微任务，适合像代码审查、寻找Bug这类需要并行探索的场景。
N选1模式： 并行生成多个备选方案，最后择优选取最佳结果。

这些模式就像乐高积木，可以在不同的抽象层级上进行灵活组合与优化，以应对特定业务场景，从而获取更优的整体效果。

Anthropic 开发专属技能，助力 Agent 自动迭代升级

智能体的生命周期管理是另一个重要挑战。如何避免智能体随着时间推移而变得过时？Anthropic的应对策略之一是开发专属的技能（Skill），帮助智能体在新模型发布时能够自动评估与升级自身。最极致的用户甚至会让一个监控智能体去持续检查其他业务智能体是否已经过时。尽管模型升级有时会带来“破坏性变更”，但平台的目标是提供一系列工具与流程，让这个升级过程尽可能平滑无缝。

一年后的 Claude 愿景：极致简化与动态自编程

展望一年后的未来，两位负责人描绘了一个高度自动化与智能化的图景。她们开玩笑说，到时候可能需要“请求”Claude来办事了。

更严肃的技术愿景是“极致的简化”。用户只需要关心两个核心参数：想要达成什么样的“业务结果”，以及愿意投入多少“预算成本”。Claude将变得足够了解自身能力与限制，能够自动判断该调用哪个模型、如何启动与协调子智能体。用户不再需要纠结于复杂的Harness工程、工具链构建或精巧的提示词设计。当前的许多手动创新步骤会逐渐消失，因为系统能够动态地“编写与重构自己”，在给定的结果与预算约束下自动寻找最优解。

届时，智能体将是持续运行、不断自我优化与重构的数字化实体。而支撑这一切的平台本身，则需要具备前所未有的强大扩展能力与稳定性，以承载这个动态、复杂且规模庞大的智能体世界，确保技术平台永远不会成为人们业务创新的阻碍。

这场对话清晰地表明，Anthropic正致力于将智能体开发从“基础设施的苦役”中解放出来，推动整个行业向更抽象、更以结果为导向的未来迈进。当构建一个智能体变得像日常对话一样简单时，真正的AI应用创新浪潮或许才会全面到来。

来源：https://www.51cto.com/article/842782.html

Claude

延伸阅读

补充最近整理过的热点入口。