游乐游手机版
首页/AI教程/文章详情

提示工程已死2026年最值钱技能是驾驭工程

时间:2026-06-22 15:36
2026年,HashiCorp联合创始人MitchellHashimoto提出驾驭工程概念,OpenAI与MartinFowler迅速跟进完善。该方法通过前馈约束与反馈检测构建系统,确保智能体长期可靠运行。OpenAI实践案例显示,借助6层架构与88个AGENTS md文件,实现了百万行代码零人工直接干预。

2026年2月5日,HashiCorp联合创始人、Terraform的发明者Mitchell Hashimoto,在个人博客上贴出了一篇文章,标题是《My AI Adoption Journey》。文章走到第五步时,他写下了一个新词:Harness Engineering(驾驭工程)

六天后的大年初四,也就是2月11日,OpenAI的Ryan Lopopolo在官方博客迅速跟进,发表了《Harness Engineering: Leveraging Codex in an Agent-First World》,并且给出了一套经典公式。

紧接着,又过了几周,Martin Fowler在自己那个做了二十年的博客上,洋洋洒洒写下一篇长文,把Harness Engineering的理论体系彻底串联了起来。

从命名到定义再到完整的框架,前后加起来也就不到一个月的时间。这大概是AI领域“从提出概念到形成共识”最快的一次收敛。

今天这篇文章,咱们就把这个被视作2026年最重要的工程概念,彻底讲清楚。


一、为什么Prompt Engineering不够用了?

先聊一个挺扎心的现状。

你可能花了两小时调试一个prompt,让Claude完美地完成了某个任务。那一刻,你感觉一切都是那么美好。可一转身,你把同样的prompt丢给第二个任务——它立刻重蹈了之前的覆辙。

问题的根源在于:Prompt Engineering解决的是“单次交互”,而Agent需要解决的是“持续可靠”

维度Prompt EngineeringHarness Engineering
解决的问题“这句话怎么说?”“怎么让它永远不犯这个错?”
作用范围单次交互整个系统生命周期
失败模式单次输出质量差长期质量退化
实现方式调措辞、加示例搭约束、建反馈、自动化
可维护性手动、per-task自动、持续

用Mitchell Hashimoto的原话来说就是:你不是在调prompt,你是在建系统。

\


二、概念辨析:Prompt vs Context vs Harness

2026年,有三个带着“Engineering”的概念满天飞,很容易混淆。一次性说清楚:

Prompt Engineering(提示工程)—— “怎么说”

2022-2024年的主角。核心问题:这句话怎么措辞,才能让模型给出最好的回答?技巧包括Few-shot示例、Chain-of-Thought、角色扮演、输出格式约束。

Context Engineering(上下文工程)—— “给什么”

2025年6月,Shopify的CEO Tobi Lutke发了一条推特,引发广泛讨论。一周后,Karpathy跟帖跟进。核心问题:给模型看什么信息,才能让它理解任务并正确执行?技巧包括RAG检索、工具调用结果注入、对话历史管理、记忆系统。

Harness Engineering(驾驭工程)—— “怎么防”

2026年2月的主角。核心问题:怎么让Agent在长期运行中保持可靠、可维护、可改进?技巧包括AGENTS.md约束文件、自定义Linter、结构化测试、CI管道、生命周期Hook、自动化纠错机制。

三者的关系其实很简单:Harness > Context > Prompt。Prompt是一句话,Context是一个信息包,Harness是一整套系统——它包含了Context和Prompt,但还额外加上了约束、检测、反馈和持续改进机制。


三、Martin Fowler的Harness框架:Guides + Sensors

Martin Fowler的文章为Harness Engineering构建了一个非常优雅的分类体系:Guides(引导)和Sensors(传感器)。

Guides(前馈控制)—— 事前预防

在Agent行动之前,通过文档、规范、约束来引导它的行为。

Guide类型示例说明
AGENTS.md / CLAUDE.md项目级指令文件告诉Agent“在这个项目里,你应该怎么做”
架构文档层级依赖规则、模块边界告诉Agent“这些边界不能越”
编码规范命名约定、错误处理模式告诉Agent“代码应该长什么样”
Bootstrap脚本环境初始化、依赖安装确保Agent从正确的起点开始工作

Sensors(反馈控制)—— 事后检测

在Agent行动之后,通过检测工具发现问题并触发修正。Fowler把它分成两类:

计算型传感器(确定性、毫秒级):类型检查器(TypeScript tsc)、Linter(ESLint、Pylint)、单元测试/集成测试、自定义结构化测试(比如“controllers/目录下的文件不能import models/”)。

推理型传感器(非确定性、较慢):LLM作为代码审查员(“AI审AI”)、视觉回归截图对比、语义一致性检查。

关键洞察:先上计算型传感器。它们快、准、便宜。推理型传感器作为补充,不要作为主力。

\

三种Harness类型

Fowler进一步把Harness分成了三类:

Harness类型目标成熟度示例工具
可维护性Harness代码质量、风格一致性Linter、类型检查、测试
架构适应度Harness层级边界、依赖规则ArchUnit、自定义结构测试
行为Harness功能正确性、业务逻辑低(最难)Eval驱动开发、端到端测试

四、OpenAI的实战案例:100万行代码,0%人工编写

OpenAI的Ryan Lopopolo团队用Codex构建了一个生产级应用,留下了目前为止最极端的Harness Engineering案例。

关键数据

指标数值
代码量~1,000,000行
人工编写比例0%
人工review比例0%
团队规模3人起步,最终7人
开发周期5个月
合并PR数~1,500
人均日PR3.5
AGENTS.md文件数88个
单次Codex运行最长时长6小时(无人值守)

1500个PR,没有人工review,全部由自动化Harness保障质量。 这句话值得反复读。

他们怎么做到的?

第一招:6层架构约束

他们把代码库分成6层,每一层只能依赖下面的层:

1. UI层(React组件)
2. ↓ 只能调用
3. Runtime层(运行时状态管理)
4. ↓ 只能调用
5. Service层(业务逻辑服务)
6. ↓ 只能调用
7. Repo层(数据访问仓储)
8. ↓ 只能调用
9. Config层(配置管理)
10. ↓ 只能调用
11. Types层(类型定义)

这些约束不是写在文档里让Agent“遵守”的——而是通过自定义Linter硬编码成了检测规则。Agent一旦越层调用,CI直接失败。

第二招:88个AGENTS.md文件

不是一个大而全的文件,而是88个分布式指令文件。每个子组件、每个模块都有自己的AGENTS.md,只包含该模块相关的约束。为什么不用一个文件?因为OpenAI发现:单个全量文件“可预见地失败了”——它挤占了任务相关的上下文空间。

第三招:渐进式信息披露

顶层AGENTS.md只有~100行,充当“目录”,指向结构化的docs/目录。Agent需要什么信息,按需去读,而不是一次性全部塞进上下文。

核心哲学

这就是Harness Engineering的终极目标:把人的判断标准固化成自动化规则,让Agent在没有人类监督的情况下也能产出高质量代码。


五、量化证据:同一个模型,换套Harness,效果差10倍

说到这里,可能有人会问:Harness真的有这么大影响吗?

来看一组数据:

实验无Harness / 基础Harness优化后Harness提升倍数
Can.ac准确率测试6.7%68.3%10.2倍
LangChain Terminal Bench 2.0第30名第5名(+13.7分)排名跳升25位
Princeton研究基线+64% solve rate1.64倍

Can.ac的实验最为震撼。同一个模型、同样的权重、同样的任务——唯一的变量是Harness。 准确率从6.7%直接飙到68.3%。

这意味着什么?意味着在2026年,模型选择已经不是第一重要的事了。你怎么用它,比你用哪个模型重要10倍。


六、Karpathy的CLAUDE.md:16万Star的“驾驭手册”

Andrej Karpathy在2026年1月发布了一份CLAUDE.md文件,基于他从“80%手写代码”到“80%Agent生成代码”的实战经验,提炼了4条核心准则。

这份文件被开源社区整理成了GitHub仓库,截至2026年5月已有16.1万Star,成为年度增长最快的开源项目之一。

四条准则

准则1:编码前先思考(Think Before Coding)
准则2:极简优先(Simplicity First)
准则3:外科手术式修改(Surgical Changes)
准则4:目标驱动执行(Goal-Driven Execution)

Karpathy的关键洞察:这4条准则让AI编码准确率从65-70%提升到了91-94%。


七、实战指南:怎么搭建你的Harness?

7.1 第一步:写好你的指令文件

这是成本最低、效果最立竿见影的Harness组件。

# CLAUDE.md (或 AGENTS.md / .cursorrules)
## 项目概述
本项目是一个供应链管理系统,使用 Node.js + React + PostgreSQL。
## 架构规则
- src/controllers/ 只能调用 src/services/,不能直接访问 src/models/
- 所有数据库操作必须通过 src/repositories/ 层
- 前端组件不允许直接调用 API,必须通过 src/hooks/ 层
## 编码规范
- 使用 TypeScript strict mode
- 函数名使用 camelCase,类名使用 PascalCase
- 错误处理:业务异常用自定义 AppError,系统异常直接 throw
- 不要添加未要求的功能、注释或类型注解
## 测试规则
- 每个新函数必须有对应的测试
- 测试文件放在 __tests__/ 目录,命名为 *.test.ts
- 使用真实数据库连接,不要 mock
## 常见错误(每条都是踩过的坑)
- ❌ 不要在 controller 中直接写 SQL
- ❌ 不要使用 any 类型
- ❌ 不要把环境变量硬编码在代码中

7.2 第二步:搭建计算型传感器

// .claude/settings.json — 生命周期Hook配置
{
  "hooks": {
    "PostToolUse": [
      {
        "matcher": "Write|Edit",
        "command": "npx eslint --fix $FILE && npx tsc --noEmit"
      }
    ],
    "PreCommit": [
      {
        "command": "npm test -- --bail"
      }
    ]
  }
}

每次Agent写完代码,自动跑Lint和类型检查。每次提交前,自动跑测试。Agent犯的错在提交之前就被拦截了。

7.3 第三步:建立“错误→规则”的反馈循环

这是Harness Engineering最核心的实践:

Agent犯错
↓
你发现了
↓
分析根因:是缺少约束?还是缺少检测?
↓
如果是缺少约束 → 更新 CLAUDE.md
如果是缺少检测 → 添加 Linter规则或测试
↓
Agent永远不会再犯同样的错误

Mitchell Hashimoto的原则:每一个Agent错误都是改进Harness的机会。 不要只是修复这次的错误,而是要确保这类错误永远不会再发生。

7.4 第四步:Eval驱动开发

搭建一套评估基准,持续衡量Harness的效果:

# 从真实失败案例中收集20-50个任务
# 每次修改Harness后,跑一遍eval
# 跟踪通过率变化

eval-results/
├── baseline.json         # 基线:无Harness,通过率62%
├── v1-agents-md.json     # 加了CLAUDE.md,通过率78%
├── v2-linter.json        # 加了Linter hook,通过率85%
├── v3-arch-tests.json    # 加了架构测试,通过率91%
└── v4-eval-driven.json   # Eval驱动迭代,通过率94%

八、开发者角色的转变:从写代码到写规范

Gartner预测,到2026年底,75%的开发者将把更多时间花在编排和架构上,而不是写代码上。

Harness Engineering推动了一个根本性的角色转变:

传统开发者Harness时代开发者
写代码写规范(Spec)
手动测试设计评估基准(Eval)
Code Review维护Harness(Guides + Sensors)
修Bug分析错误模式,更新约束规则
关注“怎么实现”关注“怎么验证”

OpenAI的总结最到位:你的价值不再是“写得一手好代码”,而是“搭得一手好Harness”。


写在最后

2026年的AI工程圈有一句话越来越流行:没有人会买一台裸发动机然后期望它自己开到目的地。 但大量团队正在做的事情就是——拿着一个裸模型,扔给它一句prompt,然后期望它产出生产级代码。

Harness Engineering不是一个新技术,它是一种工程纪律。它要求你:

  • 每发现一个Agent错误,就固化一条规则
  • 每增加一个约束,就配套一个检测
  • 每次迭代,都用Eval来衡量效果

Mitchell Hashimoto、OpenAI、Martin Fowler、Karpathy——这些人在2026年2月几乎同时指向了同一个方向。这不是巧合,而是整个行业到了这个阶段的必然收敛。

模型能力趋同后,Harness就是你的护城河。

同一个Claude Sonnet,你用得好是94%准确率,用得差是6.7%。差距不在模型,在Harness。

2026年最值钱的技能,不是会调prompt,不是会选模型,而是——会搭Harness。

来源:https://cloud.tencent.com.cn/developer/article/2693817
上一篇ComfyUI工作流入门指南 下一篇OpenSpec结合AI编程助手实现规范驱动开发
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Windows Docker Desktop RabbitMQ生产级部署完整指南
AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言 在 Windows 本地开发环境中,直接安装 RabbitMQ 确实颇为周折:需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是,版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。 相比之下,借助 Do

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践
AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年,我们与福建制造企业合作较为频繁,发现一个非常突出的现象:超过80%的企业官网,产品参数仍然存放在PDF或图片中。AI爬虫?根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富,但在AI搜索这一全新战场上,它们几乎处于隐身状态。 一、一个正在发生的行业变化 A

阿里云Token Plan团队版功能价格与省钱购买指南
AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务,这一服务专为企业与开发者量身打造,定位为AI大模型订阅平台。通过引入Credits作为统一计量单位,将文本生成、图像生成等多模态AI能力纳入单一计费体系,同时无缝兼容主流AI编程工具及智能体(Agent)生态系统。其核心亮点包括:全

阿里云物联网.NET Core客户端位置信息上报
AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标,而位置数据的来源本质上是借助设备属性进行上传。换言之,若要让设备上报位置,您需先将其视为一个普通属性进行处理。 1)添加二维位置数据 操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据,点击添加,将

年阿里云服务器选型配置与网站部署全攻略
AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年,阿里云服务器生态已高度成熟,形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网,还是运营电商平台、进行应用开发,基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维,系统梳理2026年最实用的操作要点,帮助你少走弯路,让网