游乐游手机版
首页/AI教程/文章详情

Harness工程从零到一发展历程与关键里程碑简史

时间:2026-06-26 16:11
2023年自主Agent诞生但常出现任务漂移、错误累积等失败;2024年框架改进但仍需人工介入;2026年通过并行调度子Agent、沙盒测试与自动回退机制,AI代理在复杂任务中的自主能力与可靠性大幅提升,标志着技术重大突破。

先说几个核心判断。

2023年,你让AutoGPT写一个登录页面。它兴致勃勃地开始写代码,然后觉得应该先研究一下最佳实践,于是自己调用了浏览器搜索。搜到一半,又觉得应该先把路由配置好。配置路由时,它“灵光一现”,想重构整个项目结构。30轮循环之后——登录页面没写完,它还把已有的代码搞崩了。你盯着终端,心情复杂。

到了2024年,你用LangChain加Claude写同样的功能。这回好多了:框架帮你串好了prompts、tools和memory。Agent能跑了。但每次它用错API,写出时灵时不灵的代码,你还是得手工介入。感觉就像给一个聪明但毛手毛脚的“实习生”擦屁股。

2026年,你在Claude Code里说“加个登录页面”。系统自动拉取项目规范,并行调度子Agent——一个写前端组件,一个写后端接口,一个写测试。沙盒里跑测试,通过了才提交。不通过?自动回退修改,提取错误规则写入Harness,重新来。你喝着咖啡看着。

这不是科幻。这篇文章讲的就是这条路上发生了什么。


一、2023:蛮荒时代——第一次让AI“自己干活”

2023年3月,GitHub上一个叫Toran Bruce Richards的开发者发布了一个项目。它的默认prompt是让GPT-4自己设定子目标、执行、调用工具、存储记忆。这就是AutoGPT。同月,Yohei Nakajima发布了BabyAGI,用LangChain加Pinecone向量数据库做长期记忆——让Agent能记住之前执行过的任务。

当时的社区反应是爆发式的。AgentGPT很快出现,让不会写代码的人也能在浏览器里部署Agent。Andrej Karpathy也在讨论自主Agent的潜力——把多个LLM调用串成链条,让模型能“思考”多步。

但跑起来和跑得通之间,隔着一片雷区。

综合那年社区大量实践报告和学术文献,失败模式可以归纳为七类——你大概率撞上过其中几种:

失败模式编程场景实例后果
任务漂移Agent在“改登录按钮颜色”和“重构整个路由系统”之间反复横跳什么都没做完
错误累积Step 1写错一个变量名,Step 2-10基于这个错误继续写代码全废
幻觉级联Agent引用了一个不存在的API,然后写了一大段调用它的代码全是死代码
窗口耗尽20轮对话后上下文爆了,Agent“忘记”了最初的任务从头再来
成本爆炸一次任务烧掉几十刀API费用成功率<10%
无限递归Agent修bug引入新bug,循环修复永无止境进程卡死
安全失控Agent未经确认删了文件、改了全局配置系统损伤

Ars Technica在2023年4月的报道中泼了一盆精准的冷水:AutoGPT的“有限实用性可能是大语言模型当前局限性的最有力证据”。翻译一下就是:想法对了,时机错了。

但回头看,这七个失败模式像是一张需求清单。每一个后来都对应了一个Harness组件:任务漂移→编排约束,错误累积→验证门禁,幻觉级联→工具输出校验,窗口耗尽→上下文压缩,成本爆炸→预算控制,无限递归→循环检测,安全失控→权限系统。

回到那个写登录页面的场景。2023年的AutoGPT可能在第3步就开始修改node_modules,而你完全不知道。不是它不够聪明——是它没有边界。


二、2024:重建之年——框架成熟与“包装器”价值

2024年发生了两件事,改变了Agent的轨迹。

第一件:模型终于能可靠执行多步指令了。AI实验室大量算力从pre-training转向post-training——RLHF、Constitutional AI等方法让模型在“理解并完成一个多步骤任务”这件事上有了质的提升。Eric Simons(StackBlitz CEO)在回顾Bolt.new的发展时也印证了这一点——2024年初模型能力还不足以支撑产品,年中新一代模型发布后才有了质变。

第二件:Agent框架集中井喷。LangGraph、CrewAI、AutoGen、DSPy……底层逻辑惊人一致:ReAct循环变体加工具调用加状态管理。Claude Code、Cursor、Devin这些编程Agent也在这一年崛起——Agent第一次脱离玩具场景,进入真实开发流程。

但最具启发性的不是框架本身,而是Can Boluk的hashline编辑格式实验(2024年,oh-my-pi项目)。同一个模型,同一个任务集,只改变一个变量——文件编辑界面的调用格式。准确率从6.7%跳到了68.3%。不是模型变强了,是“包装器”变聪明了。这是Harness价值的第一次量化证明——虽然Harness Engineering这个名字还要再等两年才会出现。

从这一年的实践中,几条设计原则开始浮现:

原则含义反例
工具需要统一接口每接入一个新工具不该写一套胶水代码2023年每个工具单独封装
执行需要边界沙盒不是可选项,是必选项AutoGPT裸奔操作文件系统
人需要介入点“完全自主”失败,证明要的不是无人,是人在正确时机介入2023年全自动或全手动二选一

评估基础设施也在同步爆发。LangSmith、Braintrust、Ragas在2024-2025年集中间出现。“怎么知道Agent做对了”不再是一句模糊的追问——它成了一个独立的工程问题。

回到那个登录页面。2024年它能跑通了。但每次出问题,你得手工定位、手工修复。没有自动验证,没有自动回退。Agent像一个没有刹车的赛车——快起来很爽,出事了停不住。


三、2025:标准化之年——基础设施就位

如果说2023是发现“能跑”,2024是让它“跑稳”,那2025就是让Harness的各个零件有了标准接口。

MCP(Model Context Protocol)协议是这一年最重要的标准化事件。2024年11月Anthropic发布,2025年成熟。它的灵感来自LSP——那个让任何编辑器都能接入任何编程语言智能提示的协议。MCP做了同样的事,但对象是工具:M个应用乘以N个工具的连接复杂度,从M×N变成了M+N。工具接入第一次有了标准。

2025年3月,MCP升级引入OAuth 2.1认证和Streamable HTTP传输。Agent调用第三方工具,不再需要手工配token、写中间层。

Anthropic Agent SDK也在这一年发布,被明确定义为“a general-purpose agent harness”——Harness这个词第一次作为产品概念出现。

Claude Code的关键Harness设计,到2025年已经形成了清晰的架构:

组件设计解决什么问题
权限分级Tier 1安全工具自动批准 / Tier 2项目内文件编辑快速通道 / Tier 3独立分类器评估危险操作推理和权限是两套独立系统——模型不能“说服”安全检查
自动压缩上下文利用率98%时触发保护Agent不“失忆”
子Agent隔离worktree isolation,每个子任务独立上下文避免相互污染
CLAUDE.md根目录始终在上下文,子目录按需载入;每轮重新读取,不受压缩影响项目规范持续生效
MCP工具发现按需加载schema,不预先加载所有工具避免上下文膨胀

这里有三个设计哲学回头会反复出现:

推理与权限分离:模型决定做什么,独立系统决定允不允许。Tier 3分类器是独立的Sonnet 4.6模型,它看不到主模型的推理文本——防止prompt injection绕过检查。

上下文需要显式管理:该压缩的压缩,该隔离的隔离。没有“让模型自己看着办”这一说。推荐活跃MCP服务器约5-6个:不是越多越好。精准的工具集比全面的工具集更可靠。

Prompt Caching(Anthropic 2024年8月推出,2025年广泛使用)也在这一年改变了游戏规则。上下文从“一次性消耗品”变成了“可复用资产”。同一个系统提示、同一份项目规范,不必每轮都重新传一遍。

“Agent = Model + Harness”这个公式开始在社区浮现——虽然当时还没有人系统论证过后一项到底有多重要。

回到登录页面。2025年,框架帮你管理了上下文、标准化了工具接入。但Agent还是会犯错。区别是——现在错得更隐蔽了:代码能跑但不合项目规范,测试覆盖了happy path但边缘情况全漏了。你开始意识到:让Agent写代码不难,难的是让它写对的代码。


四、2026:正名之年——从个体经验到工程学科

4.1 命名与验证(1-3月)

2026年2月5日。Mitchell Hashimoto——HashiCorp创始人,Terraform、Vagrant、Ghostty的作者——在个人博客上写了一篇文章。他给这套实践起了一个名字:Harness Engineering。

他的操作型定义只有一句话:不是提醒它下次注意,不是写个更长的prompt,是改变系统本身。

他的个人实践清单像一份Harness工程的手工指南:始终有一个Agent在后台排队处理慢任务、分离规划与执行、每次犯错改进Harness而不是只修bug、关掉Agent通知(“我选择什么时候打断Agent,它不能打断我”)、扩大测试覆盖(因为AI是“目标导向的”,会破坏当前任务范围之外的东西)。

一周后,OpenAI甩出了一份震撼弹。

2月11日,OpenAI发表了《Harness Engineering: Leveraging Codex in an Agent-First World》。Ryan Lopopolo(OpenAI Member of Technical Staff)详细记录了他们的内部实验:

指标数据
团队3人起步→7人
时间跨度5个月
生成代码量~100万行
PR数量~1500个
人均日处理PR3.5个
开发效率约10倍于手动开发
硬规则完全禁止手写代码

这组数字背后的核心不是Codex有多强,是团队把Harness工程化了。三个核心设计:

知识即系统记录。AGENTS.md只有约100行,作用是目录。真实知识在结构化的docs/目录中,Agent按需检索。不是把整个wiki塞进上下文。

架构约束可执行。分层架构不是写在文档里的建议——由自定义linter和结构测试强制。违反即阻止提交。

持续“垃圾回收”。后台Agent定期扫描文档漂移和代码腐化,自动修复。项目不会随着Agent数量增加而熵增。

Birgitta Bockeler在Martin Fowler的博客上发表专题分析时,提了两个开放问题:完全Agent生成的系统能否多年保持架构一致性?人类判断力在哪里杠杆最高?这两个问题到现在没有答案。

又过了一周。LangChain发表了基于Terminal Bench 2.0的实验结果。这是Harness价值的第一个严格因果证据。

89个跨领域编码任务——ML、调试、生物信息学、密码分析、系统编程——Docker化二值通过/失败评分。每任务5次独立试验。同一模型(gpt-5.2-codex)、同一任务集、只替换Agent框架层:

指标原始Harness优化后
通过率52.8%66.5%(+13.7 pp)
排名第30第5

三个改动方向:系统提示(强调自验证循环)、工具增强(更好帮助Agent理解环境)、中间件(检测“doom loop”——Agent无限循环重复错误操作——等有害模式)。简单,但有效。

这不只是“更好的prompt工程”。这是Harness的价值被严格量化——同一模型,不同Harness,差距13.7个百分点。


4.2 架构化与工业化(3月至今)

2026年3月24日,Anthropic发表了《Harness Design for Long-Running Application Development》,提出了一个关键架构:Planner → Generator → Evaluator。

灵感来自GAN(生成对抗网络)。核心思想:把规划、执行、评估拆成三个独立Agent。

为什么必须拆?因为让写代码的Agent评估自己的代码,等于让学生批自己的卷子。

关键设计:

设计元素具体做法为什么
Evaluator无写权限独立Agent,无Write/Edit评估和修改不能是同一个人
新鲜上下文Evaluator从干净上下文窗口启动不被Generator的推理过程影响
Sprint合同Generator和Evaluator写代码前协商“done”标准对齐预期
Default-FAIL每条标准初始为false,Agent必须打开证据才能声称成功防止自欺
评分rubricDesign Quality / Originality / Craft / Functionality把主观判断变成可打分维度
Agent自维护交接自己写进度笔记并git commit上下文重置不丢进度

结果对比:

配置耗时成本产出
裸Agent(无Harness)20分钟$9坏掉的游戏逻辑
Planner→Generator→Evaluator6小时$200完整可玩游戏,16个feature,含AI功能

$200 vs $9,看起来是22倍成本。但产出是“可玩的产品”vs“不能用的代码”。账不是这么算的。

关键洞察:Harness组件都是可被模型升级淘汰的假设。根据Anthropic工程团队的观察,Opus 4.5大幅缓解了Sonnet 4.5的“上下文焦虑”问题——之前为Sonnet设计的上下文重置机制就没必要了。Harness需要持续进化,不是在某个版本冻结。

学术界从2026年开始系统化Harness:

ETCLOVG七层模型出现了——这个名字是七个层次的首字母缩写——把Harness的各个维度结构化为一个完整框架:

层级负责
Execution执行环境与沙箱
Tools工具接口与协议
Context上下文管理
Lifecycle生命周期编排
Observability可观测性
Verification验证
Governance治理(权限、身份、策略、安全、审计、人工监督)

Meta-Harness(Stanford/MIT,2026年3月)更进一步——自动优化Harness本身。用Haiku 4.5做Agent→37.6%(所有Haiku Agent中#1)。用Opus 4.6→76.4%(#2 overall)。

AHE(Agentic Harness Engineering,2026年4月)把这个方向推到极致:自动化闭环Harness进化达到77.0% pass@1,超越了人类设计的Harness。

行业落地也在加速:

案例规模/状态
Stripe Minions周产1000+合并PR,任务创建到审查全自动
DeepSeek2026年5月组建Harness团队,对标Claude Code
小米2026年6月MiMo Code发布,内置专属Harness
创业公司明日新程获李开复、陆奇等投资
Stanford/Tsinghua研究同一模型不同Harness,性能差异可达6倍

开源vs闭源两条路线也在分野:开源生态(LangChain、CrewAI)注重灵活组合,像乐高;闭源产品(Claude Code、Cursor)注重集成体验,像整机。两条路线对Harness的理解有结构性差异——开源更强调可替换性,闭源更强调端到端优化。哪个更好?取决于你的团队有没有能力做集成。

回到登录页面——这次是真的回来了。2026年写它:Agent自动拉项目规范→子Agent并行开发前后端→沙盒测试→独立评估Agent审核→通过了才提交。出错了自动回退,从错误中提取规则加入Harness。

你不再盯着代码。你盯着系统。


五、结语:三部曲的终点

四年,一条线。

2023年,Agent搞砸的七种方式——任务漂移、错误累积、幻觉级联、窗口耗尽、成本爆炸、无限递归、安全失控——每一个都变成了Harness的一个组件:编排约束、验证门禁、工具校验、上下文压缩、预算控制、循环检测、权限系统。Harness不是凭空设计出来的,它是从“搞砸”中长出来的工程实践。

这是“AI工程三部曲”的第三篇。

篇章回答的核心问题工程层面
提示词工程怎么说优化单次交互质量
上下文工程让AI看什么管理信息输入
Harness工程怎么防止做错构建执行、验证、约束、恢复的外层系统

三者合在一起,才是完整的AI交互工程。不是你prompt写得多好、上下文管得多精——如果执行层没有约束和验证,前面的努力随时可能被一次幻觉级联清零。

核心insight:模型正在变成commodity(通用商品)。同一模型,不同Harness,性能差6倍。拼的不是谁的模型更强——拼的是谁的环境更扎实、规范更清晰、验证链路更完整。

你可能会想:“模型再强一点,Harness不就不需要了吗?”

GPT-5的实践证明恰恰相反。更强的模型不是不犯错,是犯更隐蔽的错误。代码能跑,但逻辑有洞。测试通过,但边缘情况全漏。Harness的必要性不降反升。不是模型不够好才需要Harness,是模型越强,越需要Harness来管住它。

Mitchell Hashimoto那句话应该刻在每个搞AI工程的团队的墙上:不是提醒它下次注意。不是写个更长的prompt。是改变系统本身。

这不只是Harness工程的定义。这是人和AI合作这件事,正在发生的根本转变——从依赖模型能力,到依赖系统工程能力。从“这个模型真聪明”到“这个系统真可靠”。

四年。从AutoGPT搞砸一个登录页面,到Harness工程从每一次搞砸中长成一套完整的工程学科。

这条路还在走。


本文基于公开论文、工程博客和开发者社区记录整理。关键数据来源:

Mitchell Hashimoto 个人博客《My AI Adoption Journey》(2026.2.5)
OpenAI《Harness Engineering: Leveraging Codex in an Agent-First World》(2026.2.11, openai.com/index/harness-engineering/)
LangChain《Improving Deep Agents with Harness Engineering》(2026.2, langchain.com/blog/improving-deep-agents-with-harness-engineering)
Anthropic《Harness Design for Long-Running Application Development》(2026.3.24, anthropic.com/engineering/harness-design-long-running-apps)
Anthropic MCP 规范文档(2024.11)
Ars Technica 对 AutoGPT 的报道(2023.4.18)
Birgitta Bockeler, Martin Fowler 博客《Harness Engineering - first thoughts》(2026.2.17, martinfowler.com)
Meta-Harness: End-to-End Optimization of Model-Agnostic Harnesses(arXiv, 2026.3)
AHE: Agentic Harness Engineering(arXiv, 2026.4)
ETCLOVG 综述论文(CMU/耶鲁/JHU/亚马逊联合发布)
Stanford/Tsinghua SWE-bench Mobile 研究(Tian et al., 2026)
Can Boluk, hashline 编辑格式实验, oh-my-pi 项目(2024)

来源:https://cloud.tencent.com.cn/developer/article/2694516
上一篇阿里云AnalyticDB PostgreSQL版对接使用全攻略 下一篇阿里云ECS电商商城ThinkPHP生产环境安全部署方案
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Windows Docker Desktop RabbitMQ生产级部署完整指南
AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言 在 Windows 本地开发环境中,直接安装 RabbitMQ 确实颇为周折:需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是,版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。 相比之下,借助 Do

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践
AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年,我们与福建制造企业合作较为频繁,发现一个非常突出的现象:超过80%的企业官网,产品参数仍然存放在PDF或图片中。AI爬虫?根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富,但在AI搜索这一全新战场上,它们几乎处于隐身状态。 一、一个正在发生的行业变化 A

阿里云Token Plan团队版功能价格与省钱购买指南
AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务,这一服务专为企业与开发者量身打造,定位为AI大模型订阅平台。通过引入Credits作为统一计量单位,将文本生成、图像生成等多模态AI能力纳入单一计费体系,同时无缝兼容主流AI编程工具及智能体(Agent)生态系统。其核心亮点包括:全

阿里云物联网.NET Core客户端位置信息上报
AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标,而位置数据的来源本质上是借助设备属性进行上传。换言之,若要让设备上报位置,您需先将其视为一个普通属性进行处理。 1)添加二维位置数据 操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据,点击添加,将

年阿里云服务器选型配置与网站部署全攻略
AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年,阿里云服务器生态已高度成熟,形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网,还是运营电商平台、进行应用开发,基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维,系统梳理2026年最实用的操作要点,帮助你少走弯路,让网