Anthropic官方Harnerss正式发布功能详解与获取指南

首页

AI资讯

热心网友

转载

2026-05-28

还记得年初OpenAI与Anthropic相继发布关于“Harness”工程理念的技术文章吗？当时LangChain工程师Viv曾用一个精辟公式概括其核心：Agent = Model + Harness。模型提供智能，而Harness则负责让这份智能稳定、可控地投入实际应用。然而，构建一套生产级的Harness系统——涵盖沙箱执行、状态管理、权限控制与端到端追踪——往往需要团队投入数月时间进行繁重的基础设施开发。

如今，Anthropic将这一理念直接产品化。他们正式推出Claude Managed Agents，一套用于构建与部署云端托管智能体的可组合API套件。这本质上是一项完整的托管服务：开发者只需定义智能体的任务、工具与安全护栏，Anthropic的基础设施负责运行，内置的Harness系统则处理所有复杂的编排逻辑。效果立竿见影：例如Vibecode团队借助其将开发效率提升10倍；Sentry的一个集成项目从构思到上线仅耗时数周。

官方Harness正式登场：Claude Managed Agents详解

构建一个可实际投产的智能体，远不止简单调用API。它需要沙箱化的代码执行环境、检查点机制、凭证安全管理、精细的作用域权限控制以及完整的执行追踪日志……这些往往成为长达数月的基础设施“苦力活”，且最终用户难以直接感知其价值。

Claude Managed Agents的核心价值，正是将这些复杂性全面接管。开发者只需聚焦于定义智能体的“大脑”（任务目标）与“手脚”（可用工具），Anthropic的托管环境则提供安全的“工作间”与“调度中心”。内置的智能编排Harness会自动决策何时调用工具、如何管理上下文、以及如何从错误中优雅恢复。

具体而言，该产品提供四大核心能力：

生产级智能体基础设施：安全沙箱、身份验证、工具执行均由平台托管处理。开发者无需从零搭建这些底层系统。

长时运行会话支持：智能体可持续自主工作数小时甚至更久，进度与输出持久化保存。这意味着它能承担真正复杂的长期任务，远超传统短对话请求的范畴。

多智能体协同工作：智能体可生成并指挥其他智能体，实现复杂任务的并行化处理。主智能体可派生子智能体分工处理子任务，最终汇总结果，极大提升处理效率。

可信治理与安全管控：当智能体需接入真实业务系统时，平台已内置作用域权限、身份管理与执行追踪。这为企业最关切的安全问题——例如智能体越权访问敏感数据——提供了系统性解决方案。

Claude Managed Agents 的整体架构

根据Anthropic内部测试，在结构化文件生成等任务中，Managed Agents相比标准提示循环方法，任务成功率最高可提升10个百分点。且在越复杂、越困难的任务上，其性能提升往往越显著。

从理念到产品：Agent = Model + Harness 的实践

Claude Managed Agents的底层设计哲学，正源于Harness Engineering理念。其核心是解决三个关键问题：AI在何处工作？使用什么工具工作？以及如何验证工作成果？Harness体系包含了系统提示词、工具集、文件系统、沙箱环境、编排逻辑与各类检查机制。

在设计Managed Agents时，Anthropic遵循了三大关键模式，这些模式直接塑造了产品架构：

模式一：复用Claude已掌握的工具

与其为每个特定任务设计专用工具，不如提供Claude已精通的通用工具，由其自主组合出解决方案。典型例证是：Claude在2024年末的SWE-bench Verified基准测试中达到49%的优异成绩（当时业界领先），而它仅使用了两个工具：bash工具与文本编辑器工具。Anthropic发现，Claude能够灵活组合这些通用工具，构建出“编程式工具调用”、“技能库”与“内存工具”等高级能力。

Claude 在 SWE-bench Verified 基准测试上的成绩演进

模式二：赋予Claude自主决策权

随着模型能力演进，那些关于“Claude不能独立完成什么”的传统假设需要重新审视。例如，以往认为每个工具调用的结果都必须经模型上下文窗口决策下一步，但这既消耗Token又影响速度。Managed Agents允许Claude通过编写代码（如bash脚本）来表达一系列工具调用及逻辑，仅将最终需处理的结果送入上下文窗口。由此，编排决策权从固定Harness转移给了更灵活的模型自身。

另一案例是系统提示词。传统做法是手工编写所有任务指令并预加载，但这难以扩展。Managed Agents通过“技能”机制，让Claude仅在需要时，才通过调用工具逐步展开完整技能说明，实现了上下文的渐进式加载。

模式三：审慎设定安全与体验边界

Harness需在Claude周围提供必要结构，以强制执行安全、成本或用户体验边界。对于需强安全边界或特殊用户体验的操作，可将其设计为“专用工具”。例如，难以逆转的操作（如调用外部API）可通过专用工具要求用户确认；写入工具可内置过期检查，防止覆盖已变更文件。这些专用工具为Harness提供了明确钩子，以便进行拦截、控制或审计。

实际应用案例：开发效率实现数量级提升

目前，已有多个团队使用Managed Agents交付生产级应用，覆盖代码生成、生产力提升、文档处理等多个场景。

Notion将Claude深度集成至其工作空间，允许团队直接委托任务给Claude。工程师用它交付代码，知识工作者用它生成网站与演示文稿。其产品经理指出，Managed Agents处理长会话、管理内存并持续交付高质量输出的能力，使Notion成为团队与智能体协同工作的理想平台。

Sentry将其调试智能体与Claude驱动的补丁编写智能体配对，实现了从标记Bug到生成可审查修复的自动化流程。其工程总监表示，Managed Agents提供的安全、全托管运行时，让团队能专注于打造无缝的开发者体验，该集成在数周内便告完成。

Asana构建了“AI团队成员”，这些协作智能体在项目中与人类并肩工作。其CTO认为，Managed Agents显著加速了开发进程，让团队更专注于创建企业级的多用户协同体验。

Vibecode的案例尤为突出。其联合创始人表示，在采用Managed Agents前，用户需手动设置沙箱、管理生命周期、配置工具并监督执行，此过程可能耗时数周甚至数月。而现在，仅需几行代码，用户便能以至少快10倍的速度启动同等基础设施。

总结：一个值得关注的行业范式转变

Claude Managed Agents的推出，悄然改变了Anthropic的商业定位。他们不再仅是提供模型API的厂商，而是开始提供完整的智能体运行环境——从沙箱、会话管理到权限控制，全部实现托管。这更接近云服务商的角色：提供计算资源与运行环境，只不过其上运行的是智能体。

从定价模式亦可窥见这一转变：除了按Token计费，Managed Agents新增了按会话活跃时间计费（每小时0.08美元），这更接近云主机按运行时长的计费方式，标志其向基础设施服务的靠拢。

从技术视角看，Anthropic在Harness设计上保持了充分灵活性，未强制使用单一编排逻辑，而是提供了一个可容纳不同控制器的开放系统。这种设计使产品能随模型能力进化而演进，无需推倒重来。

对广大开发者而言，该产品的最大价值在于填平了从AI原型到生产部署之间的巨大鸿沟。当繁琐、耗时的基础设施建设不再是瓶颈，团队才能真正聚焦于核心问题：设计智能体能做什么、如何执行、以及其边界何在。这无疑是整个AI应用开发领域值得密切关注的重要方向。

来源:https://www.53ai.com/news/LargeLanguageModel/2026041021546.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：中国人工智能医疗治理体系的七大关键构建方向下一篇：科技巨头争相投资 SK海力士为何只签长期协议