OpenClaw与Hermes在Harness上的竞争

时间：2026-06-19 14:21

AIAgent的竞争已从模型转向Harness编排引擎。Hermes框架让Agent自主沉淀经验为技能文档，实现自我迭代；Anthropic则提供云端托管服务，统一管理编排循环并随模型升级自动演进。真正价值在于跑在Harness之上的具体场景、流程与交付标准，而非自行维护调度逻辑。

有一天，一个真实的实战案例——让AI去执行SEO优化任务。

不是像常规做法那样编写meta描述或生成关键词列表。而是真刀真枪地修改代码，并部署上线。

去倒了杯水回来，活已经干完了。

盯着屏幕看了好一会儿，心里涌起一种难以言表的感触。并非惊讶于技术有多么先进，而是那一刻猛然意识到——在以前，这件事需要打开IDE，定位文件，手动修改代码，运行CI，推送，等待部署，最后还要验证。整条链路，Agent自行完成了闭环。

这套自动化建站方案一直采用OpenClaw配合Claude Code，运营了一段时间。起初半信半疑，用着用着就再也回不去了。

坦白说，那时对Agent的理解大概是这样：更强的模型，加上更多的工具，再加上更持久的上下文管理——大脑更聪明，手更多，记性更好。

但在同一周内读到两个东西之后，想法变了。

ps：顺便提一句，OpenClaw更新到最新版后经常不回复指令，用Claude定位后发现是CPU 100%卡死导致的。正在考虑迁移到Hermes（即“爱马仕”方案）。

第一个触动来自Hermes。

这是Nous Research推出的开源Agent框架，国内中文资料相对较少。

起初以为又是一个“支持40个工具、15个平台、MCP对接6000应用”的Agent框架——这类宣传语已经看麻木了。

但一个细节让人停住了脚步。

Hermes在完成一个复杂任务后（涉及五次以上工具调用的那种），会把整个解决过程沉淀为结构化的技能文档，存成Markdown文件。下次遇到类似任务，直接加载这份文档，无需从头推理。

更关键的是，这些技能在执行过程中会自我迭代。当发现更优方法后，Agent会自动更新文档。据Reddit用户测试，两小时内Hermes自主生成了三份技能文档，随后重复性研究任务的速度提升了40%。

看到这里不由得停顿了一下。

因为突然理解了它在做什么。

它并非坐等模型变得更聪明，而是自主构建操作手册。每完成一件复杂的事，经验就被固化下来，下次无需从头推理，直接调用。用得越久的Agent，对擅长的领域会越来越熟练。

这与OpenClaw的路子完全不同。OpenClaw的技能系统主要靠人工编写和社区贡献，ClawHub上有一个技能市场，找到合适的装上去就能用。而Hermes是把“编写技能”这件事本身也交给了Agent。

如果说OpenClaw是把工具交给Agent，Hermes则是在教Agent自己制造工具。

接着在X平台上看到了Anthropic发布Claude Managed Agents的消息。

然后看到了马东锡（此马东锡非韩国演员）的那条推文。

推文大意是：本地构建Harness其实是一种徒劳的行为。因为随着模型迭代解决根本问题，针对旧模型局限性精心设计的harness便失去了存在的意义。换句话说，模型的局限性制造商最清楚，它可以完全按照模型特性设计不同的harness，然后打包卖给你。这个包就是Managed Agents。

当时就停住了。

这段话说的正是很多人的做法——一直认为要让Agent跑得好，需要自己搭好调度逻辑，设计好Harness，想清楚怎么管理上下文、怎么处理工具调用的边界。这些曾被当作“用好Agent”的必修课。

但马东锡的意思是：你针对模型当前局限性设计的那些东西，模型升级之后就成了累赘。

Anthropic工程博客有一个真实案例。Claude Sonnet 4.5在接近上下文窗口极限时会“焦虑”，草草结束任务，于是团队在调度框架中专门加了上下文重置来应对。Claude Opus 4.5出来后，这个问题消失了，之前那个补丁反而成了多余的逻辑。

自己维护Harness，每次模型升级都得跟着改。交给Anthropic，他们替你优化，打包卖给你。

那么Managed Agents到底是什么？

一句话概括：告诉Anthropic你想要什么样的AI Agent，它帮你在云端跑起来，基础设施全包，按用量收费。

它与Claude Code的区别很直接。Claude Code跑在本地电脑上，关机就停止。Managed Agents跑在Anthropic的云上，24小时不间断，断线不丢进度，产品可以直接内嵌Agent能力。

实际案例：Notion让用户在工作区直接分配任务给Claude Agent，Agent在后台跑完把结果交回，全程无需离开Notion。Sentry实现了从发现bug到提交修复代码的全自动流程，几周内上线。Rakuten在工程、产品、销售、财务各部门都部署了专项Agent，每个一周内上线，通过Slack和Teams接收任务，交付的是表格、PPT、App这类实际成果。

而在以前，这些工作需要一整个工程师团队干几个月。

背后的架构，Anthropic称之为“大脑和手分离”。

最初他们把所有东西塞进一个容器：AI的推理循环、代码执行环境、会话记录，全在一起。好处是简单，坏处是鸡蛋全在一个篮子里，容器一挂，整个会话就没了。

后来做了关键拆分。大脑是Claude和调度框架，负责思考和决策。手是沙盒和各种工具，负责执行。记忆是独立会话日志，记录一切。三者互不依赖，任何一个挂了都不影响另外两个。

这个拆分带来了几个实际好处。首先是速度快——只有在Agent真正需要跑代码时才按需启动沙盒，首次响应延迟中位数降了约60%，极端情况降了超过90%。其次是安全性——代码跑在沙盒里，访问外部系统的凭证存在沙盒外的安全保险箱里，两边物理隔离，Agent全程不经手凭证本身。还有灵活性——工程博客里有句话说得很好：调度框架不知道沙盒到底是一个容器、一部手机、还是一个宝可梦模拟器，只要符合“名字和输入进去，字符串出来”的接口就行。

宝可梦模拟器那句可不是瞎编的，原文就是这么写的。

把这两件事放在一起想了一下。

Hermes和Managed Agents，一个是5美元VPS就能跑的开源框架，一个是Anthropic卖给企业的云端托管服务，看起来毫无关联。

但它们在解决同一个问题：谁来管理Harness？

Anthropic的答案：我来管，云端运行，打包卖给你。

Hermes的答案：Agent自己来管，把经验沉淀成Skill，Harness随着使用越来越好。

两个截然不同的路径，却收敛到了同一个判断。

Agent的竞争，已经不在模型本身了。

真正的战场，在Harness上。

Anthropic发布的Claude Managed Agents是一套可组合的API，用于构建和部署云托管的AI Agent。但与市面上的Agent框架不同，Anthropic卖的核心是Harness（Agent编排引擎）：一个经过调优的编排循环，自动处理工具调用决策、上下文管理、错误恢复，并且随模型能力升级自动演进。

这让人联想到AWS。

2006年之前，想跑一个互联网服务，得自己买服务器、租机房、配网络。AWS出来之后，这些事全包了。

但AWS真正改变的不仅是省了买服务器的钱，而是让“搭基础设施”这件事本身，从核心竞争力变成了可以外包的商品。

那批做托管机房的公司，业务空间开始被压缩。

真正赚到钱的，是那些想清楚了“只有在云上才能跑的产品是什么”的人。

现在，同样的事正在Agent这个赛道上发生。

Anthropic在卖托管好的Agent运行服务——不只卖token，而是卖sandbox，卖execution，卖memory，卖完整的Agent runtime。OpenAI也推出了自己的Agent平台Frontier。这个赛道的竞争刚刚开始。顺便一提，Anthropic的年经常性收入刚突破300亿美元，是去年12月的三倍，大部分增长来自企业客户。华尔街已经开始紧张了，WSJ指出投资者对传统SaaS公司的股价越来越谨慎，担心这类产品会让一些传统软件服务变得多余。

那批做通用Agent调度框架、通用orchestration封装的团队，日子开始难过了——因为上游平台在把这一层慢慢吃掉。

真正的问题变成了：你想清楚了没有，什么是只有Agent跑起来才能交付的东西？

回头想想做的建站自动化。

让Agent做SEO优化，它改了代码，部署上线，活做完了。

这件事真正难的不是Agent调用了多少个工具，而是这个任务有一个明确的“做完了”的标准——部署成功，SEO指标改了，代码没挂，就算做好了。

Agent最能发挥价值的地方，往往就是这种有明确交付物、可以验证结果的场景。做站、SEO优化、QA跑测试、外链检查——这些有个共同点：可以清楚地知道它有没有做好。这比“帮我想想有没有什么好生意”这种任务，对Agent来说容易太多了。