Harness工程从零到一发展历程与关键里程碑简史

时间：2026-06-26 16:11

2023年自主Agent诞生但常出现任务漂移、错误累积等失败；2024年框架改进但仍需人工介入；2026年通过并行调度子Agent、沙盒测试与自动回退机制，AI代理在复杂任务中的自主能力与可靠性大幅提升，标志着技术重大突破。

先说几个核心判断。

2023年，你让AutoGPT写一个登录页面。它兴致勃勃地开始写代码，然后觉得应该先研究一下最佳实践，于是自己调用了浏览器搜索。搜到一半，又觉得应该先把路由配置好。配置路由时，它“灵光一现”，想重构整个项目结构。30轮循环之后——登录页面没写完，它还把已有的代码搞崩了。你盯着终端，心情复杂。

到了2024年，你用LangChain加Claude写同样的功能。这回好多了：框架帮你串好了prompts、tools和memory。Agent能跑了。但每次它用错API，写出时灵时不灵的代码，你还是得手工介入。感觉就像给一个聪明但毛手毛脚的“实习生”擦屁股。

2026年，你在Claude Code里说“加个登录页面”。系统自动拉取项目规范，并行调度子Agent——一个写前端组件，一个写后端接口，一个写测试。沙盒里跑测试，通过了才提交。不通过？自动回退修改，提取错误规则写入Harness，重新来。你喝着咖啡看着。

这不是科幻。这篇文章讲的就是这条路上发生了什么。

一、2023：蛮荒时代——第一次让AI“自己干活”

2023年3月，GitHub上一个叫Toran Bruce Richards的开发者发布了一个项目。它的默认prompt是让GPT-4自己设定子目标、执行、调用工具、存储记忆。这就是AutoGPT。同月，Yohei Nakajima发布了BabyAGI，用LangChain加Pinecone向量数据库做长期记忆——让Agent能记住之前执行过的任务。

当时的社区反应是爆发式的。AgentGPT很快出现，让不会写代码的人也能在浏览器里部署Agent。Andrej Karpathy也在讨论自主Agent的潜力——把多个LLM调用串成链条，让模型能“思考”多步。

但跑起来和跑得通之间，隔着一片雷区。

综合那年社区大量实践报告和学术文献，失败模式可以归纳为七类——你大概率撞上过其中几种：

失败模式	编程场景实例	后果
任务漂移	Agent在“改登录按钮颜色”和“重构整个路由系统”之间反复横跳	什么都没做完
错误累积	Step 1写错一个变量名，Step 2-10基于这个错误继续写	代码全废
幻觉级联	Agent引用了一个不存在的API，然后写了一大段调用它的代码	全是死代码
窗口耗尽	20轮对话后上下文爆了，Agent“忘记”了最初的任务	从头再来
成本爆炸	一次任务烧掉几十刀API费用	成功率<10%
无限递归	Agent修bug引入新bug，循环修复永无止境	进程卡死
安全失控	Agent未经确认删了文件、改了全局配置	系统损伤

Ars Technica在2023年4月的报道中泼了一盆精准的冷水：AutoGPT的“有限实用性可能是大语言模型当前局限性的最有力证据”。翻译一下就是：想法对了，时机错了。

但回头看，这七个失败模式像是一张需求清单。每一个后来都对应了一个Harness组件：任务漂移→编排约束，错误累积→验证门禁，幻觉级联→工具输出校验，窗口耗尽→上下文压缩，成本爆炸→预算控制，无限递归→循环检测，安全失控→权限系统。

回到那个写登录页面的场景。2023年的AutoGPT可能在第3步就开始修改node_modules，而你完全不知道。不是它不够聪明——是它没有边界。

二、2024：重建之年——框架成熟与“包装器”价值

2024年发生了两件事，改变了Agent的轨迹。

第一件：模型终于能可靠执行多步指令了。AI实验室大量算力从pre-training转向post-training——RLHF、Constitutional AI等方法让模型在“理解并完成一个多步骤任务”这件事上有了质的提升。Eric Simons（StackBlitz CEO）在回顾Bolt.new的发展时也印证了这一点——2024年初模型能力还不足以支撑产品，年中新一代模型发布后才有了质变。

第二件：Agent框架集中井喷。LangGraph、CrewAI、AutoGen、DSPy……底层逻辑惊人一致：ReAct循环变体加工具调用加状态管理。Claude Code、Cursor、Devin这些编程Agent也在这一年崛起——Agent第一次脱离玩具场景，进入真实开发流程。

但最具启发性的不是框架本身，而是Can Boluk的hashline编辑格式实验（2024年，oh-my-pi项目）。同一个模型，同一个任务集，只改变一个变量——文件编辑界面的调用格式。准确率从6.7%跳到了68.3%。不是模型变强了，是“包装器”变聪明了。这是Harness价值的第一次量化证明——虽然Harness Engineering这个名字还要再等两年才会出现。

从这一年的实践中，几条设计原则开始浮现：

原则	含义	反例
工具需要统一接口	每接入一个新工具不该写一套胶水代码	2023年每个工具单独封装
执行需要边界	沙盒不是可选项，是必选项	AutoGPT裸奔操作文件系统
人需要介入点	“完全自主”失败，证明要的不是无人，是人在正确时机介入	2023年全自动或全手动二选一

评估基础设施也在同步爆发。LangSmith、Braintrust、Ragas在2024-2025年集中间出现。“怎么知道Agent做对了”不再是一句模糊的追问——它成了一个独立的工程问题。

回到那个登录页面。2024年它能跑通了。但每次出问题，你得手工定位、手工修复。没有自动验证，没有自动回退。Agent像一个没有刹车的赛车——快起来很爽，出事了停不住。

三、2025：标准化之年——基础设施就位

如果说2023是发现“能跑”，2024是让它“跑稳”，那2025就是让Harness的各个零件有了标准接口。

MCP（Model Context Protocol）协议是这一年最重要的标准化事件。2024年11月Anthropic发布，2025年成熟。它的灵感来自LSP——那个让任何编辑器都能接入任何编程语言智能提示的协议。MCP做了同样的事，但对象是工具：M个应用乘以N个工具的连接复杂度，从M×N变成了M+N。工具接入第一次有了标准。

2025年3月，MCP升级引入OAuth 2.1认证和Streamable HTTP传输。Agent调用第三方工具，不再需要手工配token、写中间层。

Anthropic Agent SDK也在这一年发布，被明确定义为“a general-purpose agent harness”——Harness这个词第一次作为产品概念出现。

Claude Code的关键Harness设计，到2025年已经形成了清晰的架构：

组件	设计	解决什么问题
权限分级	Tier 1安全工具自动批准 / Tier 2项目内文件编辑快速通道 / Tier 3独立分类器评估危险操作	推理和权限是两套独立系统——模型不能“说服”安全检查
自动压缩	上下文利用率98%时触发	保护Agent不“失忆”
子Agent隔离	worktree isolation，每个子任务独立上下文	避免相互污染
CLAUDE.md	根目录始终在上下文，子目录按需载入；每轮重新读取，不受压缩影响	项目规范持续生效
MCP工具发现	按需加载schema，不预先加载所有工具	避免上下文膨胀

这里有三个设计哲学回头会反复出现：

推理与权限分离：模型决定做什么，独立系统决定允不允许。Tier 3分类器是独立的Sonnet 4.6模型，它看不到主模型的推理文本——防止prompt injection绕过检查。

上下文需要显式管理：该压缩的压缩，该隔离的隔离。没有“让模型自己看着办”这一说。推荐活跃MCP服务器约5-6个：不是越多越好。精准的工具集比全面的工具集更可靠。

Prompt Caching（Anthropic 2024年8月推出，2025年广泛使用）也在这一年改变了游戏规则。上下文从“一次性消耗品”变成了“可复用资产”。同一个系统提示、同一份项目规范，不必每轮都重新传一遍。

“Agent = Model + Harness”这个公式开始在社区浮现——虽然当时还没有人系统论证过后一项到底有多重要。

回到登录页面。2025年，框架帮你管理了上下文、标准化了工具接入。但Agent还是会犯错。区别是——现在错得更隐蔽了：代码能跑但不合项目规范，测试覆盖了happy path但边缘情况全漏了。你开始意识到：让Agent写代码不难，难的是让它写对的代码。

四、2026：正名之年——从个体经验到工程学科

4.1 命名与验证（1-3月）

2026年2月5日。Mitchell Hashimoto——HashiCorp创始人，Terraform、Vagrant、Ghostty的作者——在个人博客上写了一篇文章。他给这套实践起了一个名字：Harness Engineering。

他的操作型定义只有一句话：不是提醒它下次注意，不是写个更长的prompt，是改变系统本身。

他的个人实践清单像一份Harness工程的手工指南：始终有一个Agent在后台排队处理慢任务、分离规划与执行、每次犯错改进Harness而不是只修bug、关掉Agent通知（“我选择什么时候打断Agent，它不能打断我”）、扩大测试覆盖（因为AI是“目标导向的”，会破坏当前任务范围之外的东西）。

一周后，OpenAI甩出了一份震撼弹。

2月11日，OpenAI发表了《Harness Engineering: Leveraging Codex in an Agent-First World》。Ryan Lopopolo（OpenAI Member of Technical Staff）详细记录了他们的内部实验：

指标	数据
团队	3人起步→7人
时间跨度	5个月
生成代码量	~100万行
PR数量	~1500个
人均日处理PR	3.5个
开发效率	约10倍于手动开发
硬规则	完全禁止手写代码

这组数字背后的核心不是Codex有多强，是团队把Harness工程化了。三个核心设计：

知识即系统记录。AGENTS.md只有约100行，作用是目录。真实知识在结构化的docs/目录中，Agent按需检索。不是把整个wiki塞进上下文。

架构约束可执行。分层架构不是写在文档里的建议——由自定义linter和结构测试强制。违反即阻止提交。

持续“垃圾回收”。后台Agent定期扫描文档漂移和代码腐化，自动修复。项目不会随着Agent数量增加而熵增。

Birgitta Bockeler在Martin Fowler的博客上发表专题分析时，提了两个开放问题：完全Agent生成的系统能否多年保持架构一致性？人类判断力在哪里杠杆最高？这两个问题到现在没有答案。

又过了一周。LangChain发表了基于Terminal Bench 2.0的实验结果。这是Harness价值的第一个严格因果证据。

89个跨领域编码任务——ML、调试、生物信息学、密码分析、系统编程——Docker化二值通过/失败评分。每任务5次独立试验。同一模型（gpt-5.2-codex）、同一任务集、只替换Agent框架层：

指标	原始	Harness优化后
通过率	52.8%	66.5%（+13.7 pp）
排名	第30	第5

三个改动方向：系统提示（强调自验证循环）、工具增强（更好帮助Agent理解环境）、中间件（检测“doom loop”——Agent无限循环重复错误操作——等有害模式）。简单，但有效。

这不只是“更好的prompt工程”。这是Harness的价值被严格量化——同一模型，不同Harness，差距13.7个百分点。

4.2 架构化与工业化（3月至今）

2026年3月24日，Anthropic发表了《Harness Design for Long-Running Application Development》，提出了一个关键架构：Planner → Generator → Evaluator。

灵感来自GAN（生成对抗网络）。核心思想：把规划、执行、评估拆成三个独立Agent。

为什么必须拆？因为让写代码的Agent评估自己的代码，等于让学生批自己的卷子。

关键设计：

设计元素	具体做法	为什么
Evaluator无写权限	独立Agent，无Write/Edit	评估和修改不能是同一个人
新鲜上下文	Evaluator从干净上下文窗口启动	不被Generator的推理过程影响
Sprint合同	Generator和Evaluator写代码前协商“done”标准	对齐预期
Default-FAIL	每条标准初始为false，Agent必须打开证据才能声称成功	防止自欺
评分rubric	Design Quality / Originality / Craft / Functionality	把主观判断变成可打分维度
Agent自维护交接	自己写进度笔记并git commit	上下文重置不丢进度

结果对比：

配置	耗时	成本	产出
裸Agent（无Harness）	20分钟	$9	坏掉的游戏逻辑
Planner→Generator→Evaluator	6小时	$200	完整可玩游戏，16个feature，含AI功能

$200 vs $9，看起来是22倍成本。但产出是“可玩的产品”vs“不能用的代码”。账不是这么算的。

关键洞察：Harness组件都是可被模型升级淘汰的假设。根据Anthropic工程团队的观察，Opus 4.5大幅缓解了Sonnet 4.5的“上下文焦虑”问题——之前为Sonnet设计的上下文重置机制就没必要了。Harness需要持续进化，不是在某个版本冻结。

学术界从2026年开始系统化Harness：

ETCLOVG七层模型出现了——这个名字是七个层次的首字母缩写——把Harness的各个维度结构化为一个完整框架：

层级	负责
Execution	执行环境与沙箱
Tools	工具接口与协议
Context	上下文管理
Lifecycle	生命周期编排
Observability	可观测性
Verification	验证
Governance	治理（权限、身份、策略、安全、审计、人工监督）

Meta-Harness（Stanford/MIT，2026年3月）更进一步——自动优化Harness本身。用Haiku 4.5做Agent→37.6%（所有Haiku Agent中#1）。用Opus 4.6→76.4%（#2 overall）。

AHE（Agentic Harness Engineering，2026年4月）把这个方向推到极致：自动化闭环Harness进化达到77.0% pass@1，超越了人类设计的Harness。

行业落地也在加速：

案例	规模/状态
Stripe Minions	周产1000+合并PR，任务创建到审查全自动
DeepSeek	2026年5月组建Harness团队，对标Claude Code
小米	2026年6月MiMo Code发布，内置专属Harness
创业公司明日新程	获李开复、陆奇等投资
Stanford/Tsinghua研究	同一模型不同Harness，性能差异可达6倍

开源vs闭源两条路线也在分野：开源生态（LangChain、CrewAI）注重灵活组合，像乐高；闭源产品（Claude Code、Cursor）注重集成体验，像整机。两条路线对Harness的理解有结构性差异——开源更强调可替换性，闭源更强调端到端优化。哪个更好？取决于你的团队有没有能力做集成。

回到登录页面——这次是真的回来了。2026年写它：Agent自动拉项目规范→子Agent并行开发前后端→沙盒测试→独立评估Agent审核→通过了才提交。出错了自动回退，从错误中提取规则加入Harness。

你不再盯着代码。你盯着系统。

五、结语：三部曲的终点

四年，一条线。

2023年，Agent搞砸的七种方式——任务漂移、错误累积、幻觉级联、窗口耗尽、成本爆炸、无限递归、安全失控——每一个都变成了Harness的一个组件：编排约束、验证门禁、工具校验、上下文压缩、预算控制、循环检测、权限系统。Harness不是凭空设计出来的，它是从“搞砸”中长出来的工程实践。

这是“AI工程三部曲”的第三篇。

篇章	回答的核心问题	工程层面
提示词工程	怎么说	优化单次交互质量
上下文工程	让AI看什么	管理信息输入
Harness工程	怎么防止做错	构建执行、验证、约束、恢复的外层系统

三者合在一起，才是完整的AI交互工程。不是你prompt写得多好、上下文管得多精——如果执行层没有约束和验证，前面的努力随时可能被一次幻觉级联清零。

核心insight：模型正在变成commodity（通用商品）。同一模型，不同Harness，性能差6倍。拼的不是谁的模型更强——拼的是谁的环境更扎实、规范更清晰、验证链路更完整。

你可能会想：“模型再强一点，Harness不就不需要了吗？”

GPT-5的实践证明恰恰相反。更强的模型不是不犯错，是犯更隐蔽的错误。代码能跑，但逻辑有洞。测试通过，但边缘情况全漏。Harness的必要性不降反升。不是模型不够好才需要Harness，是模型越强，越需要Harness来管住它。

Mitchell Hashimoto那句话应该刻在每个搞AI工程的团队的墙上：不是提醒它下次注意。不是写个更长的prompt。是改变系统本身。

这不只是Harness工程的定义。这是人和AI合作这件事，正在发生的根本转变——从依赖模型能力，到依赖系统工程能力。从“这个模型真聪明”到“这个系统真可靠”。

四年。从AutoGPT搞砸一个登录页面，到Harness工程从每一次搞砸中长成一套完整的工程学科。

这条路还在走。

本文基于公开论文、工程博客和开发者社区记录整理。关键数据来源：

Mitchell Hashimoto 个人博客《My AI Adoption Journey》（2026.2.5）
OpenAI《Harness Engineering: Leveraging Codex in an Agent-First World》（2026.2.11, openai.com/index/harness-engineering/）
LangChain《Improving Deep Agents with Harness Engineering》（2026.2, langchain.com/blog/improving-deep-agents-with-harness-engineering）
Anthropic《Harness Design for Long-Running Application Development》（2026.3.24, anthropic.com/engineering/harness-design-long-running-apps）
Anthropic MCP 规范文档（2024.11）
Ars Technica 对 AutoGPT 的报道（2023.4.18）
Birgitta Bockeler, Martin Fowler 博客《Harness Engineering - first thoughts》（2026.2.17, martinfowler.com）
Meta-Harness: End-to-End Optimization of Model-Agnostic Harnesses（arXiv, 2026.3）
AHE: Agentic Harness Engineering（arXiv, 2026.4）
ETCLOVG 综述论文（CMU/耶鲁/JHU/亚马逊联合发布）
Stanford/Tsinghua SWE-bench Mobile 研究（Tian et al., 2026）
Can Boluk, hashline 编辑格式实验, oh-my-pi 项目（2024）

来源：https://cloud.tencent.com.cn/developer/article/2694516

其他