目录
一、从 AI Coding 迈向 AI Builder 的进化之路
二、为何仅靠 AI Coding 难以支撑复杂工程
三、Harness 的本质解析:不是禁锢的牢笼,而是协同的环境
四、Plan 阶段:借助 Contract 将需求转化为安全护栏
五、Do 阶段:实现 AI 开发的零等待体验
六、Check 阶段:让推荐效果实现 7x24 小时持续可量化
七、Act 阶段:将 Bad Case 转化为下一轮迭代的核心能力
八、七阶段护栏之外,仍需关注的三大深层挑战
九、知识治理体系:文档面向人类阅读,Coding 为 AI 设定边界
十、推查查系统:Highway 与 ATV 混合智能体架构深度解析
1. Highway 路径:代码驱动的确定性保障
2. ATV 路径:长尾问题的受控探索机制
十一、NOW 实践:从单点效率提升迈向工程复利效应
十二、尾声:碳硅交融的蝶梦启示
本文整理自得物技术专家在 AICon 上海站发表的演讲实录。
作为「得物推荐 AI Harness 工程化实践系列」的开篇之作,整个系列规划共三篇,将系统性地梳理得物推荐在复杂业务场景中,围绕 AI 代码生成、安全防护校验到稳定上线的完整技术体系。内容涵盖自研 AI Harness 的整体架构设计、全生命周期安全防护机制、混合智能体算法的核心实现思路,以及工业级工程落地的关键细节。
本篇为上篇,重点聚焦团队自研的 AI Harness 体系:建设初衷与思路是什么、全生命周期防护机制如何搭建、混合智能体架构的具体形态,以及最终在实际业务中取得的落地成效。
一、从 AI Coding 迈向 AI Builder 的进化之路
AI 自动生成代码在今天已经不算新鲜事。但真正让行业普遍感到棘手的核心问题是:如何让 AI 在复杂的业务系统中,能够始终按照既定目标、严格边界和质量标准,持续稳定地产出可用的工程代码?
得物推荐团队给出的答案非常明确:不是再去开发一个更擅长写代码的工具,而是围绕 PDCA 全链路,构建一套完整的 AI Harness 体系。让需求变得可约束、执行过程不断点、效果能够被度量、经验可以被复用。
过去一年,AI Coding 的用户体验成熟速度非常快。它能够编写代码、补充测试用例、修复程序缺陷,甚至在一些局部任务中表现出极高的效率。但在真实的工程系统里,“代码能跑”和“按目标高质量生产”之间,依然存在巨大的鸿沟。
推荐系统尤其如此:链路长、模块多,修改一处可能牵动多路召回策略;效果变化往往难以解释,工程经验也很难沉淀为标准化的操作流程。如果 AI 仅仅停留在 Do 这个执行阶段,它最终只是一个速度更快的代码生成器,而不是一个能够真正推动业务持续迭代的工程伙伴。
核心变化在于:AI 化的不应只是单一的开发环节,而是整个迭代周期的完整闭环。
二、为何仅靠 AI Coding 难以支撑复杂工程
传统工程迭代可以抽象为经典的 PDCA 循环:Plan 阶段对齐目标和边界,Do 阶段完成开发与实现,Check 阶段验证效果和识别风险,Act 阶段沉淀经验并进入下一轮优化。AI Coding 主要解决的是 Do 这个环节的效率问题,但复杂系统中导致失败的原因,往往并不只发生在 Do 阶段。

因此,我们的目标不是让 AI “更会写代码”,而是让 AI 能够真正融入完整的迭代飞轮:目标更加清晰、执行不断点、效果可量化、经验可复用。


从 AI Coding 到 AI Builder 的转变:代码能跑,绝不等于按目标高质量生产。
三、Harness 的本质解析:不是禁锢的牢笼,而是协同的环境
在深入探讨 Harness 之前,可以先联想一部经典电影:《楚门的世界》。楚门被禁锢在一个巨大的虚假世界里,但真正有效的约束并不是摄像头、海岛或演员,而是环境本身——它让楚门发自内心地觉得,这就是世界原本的样子。
优秀的 AI Harness 也是如此。它不是在 AI 外部挂上一串生硬的硬规则,而是将目标、边界、依赖、验证和回流能力深度融入协作环境,让 AI 在“自然行动”的过程中,不容易越界或偏离方向。
好的 Harness 不是冷冰冰的铁笼,而是有机的协作环境。它让 AI 感觉自己是在自由行动,但每一步都天然处于可验证、可回滚、可复用的工程上下文之中。

《楚门的世界》启示:最有效的 harness 是环境本身,让他觉得,世界本该如此运转。
七阶段护栏机制:将 PDCA 拆解为可度量的协作层面


七阶段护栏:全面覆盖并落地 PDCA 闭环。
四、Plan 阶段:借助 Contract 将需求转化为安全护栏
很多需求最终失败,核心原因并非代码写得不好,而是从最开始的阶段就理解错了。用自然语言撰写的 PRD,对人类阅读者来说尚且存在歧义,对 AI 而言更是如此。因此 Plan 阶段的关键任务,是将需求改造成 AI 能够理解、能够执行、能够验证的结构化契约。
在得物推荐的工程实践中,T-PRD 会将需求拆解为多个 EP(执行单元),每个 EP 再绑定明确的影响范围、指标方向、稳定性红线和验收断言。以“负反馈调权”场景为例,产品提出“用户点击不感兴趣,希望减少类似商品推荐”,工程上就需要拆解为信号接入、多粒度降权策略、实验与指标护栏等可执行的单元。
feature: negative_feedback_rerank
goal: 用户点击“不感兴趣”后,减少相似商品曝光
scope:
- Signal: not_interested/dislike
- Ranking: item/spu/shop/brand
guardrails:
- 禁止核心点击率显著劣化
- 必须保留多样性与新颖性观察指标
- 所有影响模块需具备可回滚路径
五、Do 阶段:实现 AI 开发的零等待体验
AI 自主开发最怕什么?最怕“等人”。它写完代码跑不起来,拿不到日志,依赖服务不稳定,就会不断回头向人类提问,最终沦为一个非常昂贵的自动补全工具。

六、Check 阶段:让推荐效果实现 7x24 小时持续可量化
推荐系统的 Check 环节极具挑战性,因为很多时候连团队自身也无法简单直观地判断“这次推荐的效果到底好不好”。传统方式依赖 AUC、GAUC、线上实验和人工评审,成本高昂且反馈周期漫长。
Axis 推荐 AI 评测平台引入了 AI 评审员机制,可以模拟不同用户画像,从新颖性、内容质量、相关性等多个维度对推荐结果进行系统化评分。它的目的不是替代线上实验,而是在上线前增加一层体验风险的早期雷达。AI 负责全量评分,专家负责抽样复核,复核过程中沉淀的知识再持续回灌到评测体系中。
关键点在于:AI 评测的核心目的不是为了证明模型一定正确,而是为了让体验风险能够更早暴露,让评审口径可以持续沉淀和迭代。

Check 环节:Axis 推荐 AI 评测平台,将体验评审升级为 7x24 小时不间断的自动化评审流程。
七、Act 阶段:将 Bad Case 转化为下一轮迭代的核心能力
线上出现异常时,系统会进入 Bad Case 捕获、智能诊断、沙箱复盘和 Story 沉淀的完整流程。一次问题排查,不应该只留下一个简单的结论,而应该留下下一次能够直接复用的路径和方法论。
八、七阶段护栏之外,仍需关注的三大深层挑战
流程护栏能够解决大量显性问题,但 Agent 本身仍然存在固有局限:知识会丢失、行为会漂移、路径不够透明。这些挑战并非某一个阶段的特有问题,而是 Agent 在工程化承载过程中普遍面临的共性难题。

九、知识治理体系:文档面向人类阅读,Coding 为 AI 设定边界
有一个广为流传的程序员笑话:程序员最不喜欢两件事,第一是别人不写文档,第二是我自己写文档。AI 也面临类似的困境——你不告诉它规则,它就会随意发挥;你用纯自然语言告诉它,它又很难稳定地理解边界和约束。
得物推荐将知识体系划分为三个层次:L1 是整体架构层,定义不可逾越的行动边界;L2 是模块设计文档层,解释关键的技术取舍和依赖关系;L3 是代码注释层,最贴近 AI,在读取代码时随用随取,无需额外查找。

在实验验证中,补充 L3 注释后,简单问题的回答准确率从 52% 显著提升到了 91%,复杂问题的准确率更是达到了 100%;与此同时,简单题的整体 token 消耗下降了 48%,复杂题下降了 26%。单次上下文虽然可能变长,但任务完成的轮次大幅减少,整体成本反而实现了下降。

L3 注释评测结果:让模型从盲目猜测走向可验证的确定性输出。
十、推查查系统:Highway 与 ATV 混合智能体架构深度解析
在推荐链路的排查场景中,有一个非常现实的观察:80% 的问题是高频、可归类、可复现的,而剩余 20% 的问题是长尾、复杂、需要探索性分析的。这两类性质截然不同的问题,不应该使用同一种 Agent 路径去解决。

Highway 路径:代码驱动的确定性保障
一个经典的玩笑是:女朋友让你买两根香蕉,如果看到卖苹果的,就买四根。人类会脑补和猜测,到底买香蕉还是苹果;代码不会,它只会严格按照条件执行。
Highway 的设计原则异曲同工:优秀的 Highway 不是更会猜测,而是根本不脑补。将稳定路径写进代码,让每一次执行都在同一个地方执行、同一个地方观测、同一个地方定位错误。LLM 只负责最终结果的自然语言润色。
ATV 路径:长尾问题的受控探索机制
剩余 20% 的长尾问题,无法依靠写死的程序逻辑来全面覆盖。ATV 提供工具集、MCP 协议和约束条件,让 Agent 按照 ReAct 模式自主拆解问题、调用工具、读取结果、生成结论。探索成功后,Memory 模块会对轨迹进行剪枝优化,将 UID 这类一次性特征升维为通用的业务变量,再经过 Dry Run 准入验证,沉淀为新的 Highway 能力。

Memory 机制:将一次成功的探索,转化为下一次的默认能力。
十一、NOW 实践:从单点效率提升迈向工程复利效应
当 Plan、Do、Check、Act 各个环节都被 AI Harness 纳入系统化治理之后,收益就不再是“某个人写代码变快了”,而是整个迭代系统开始真正运转起来,形成正向循环。

这套体系的核心价值,不在于让 AI 替代工程师,而在于让工程系统本身,变得更加适合人和 AI 协同工作。
十二、尾声:碳硅交融的蝶梦启示
两千多年前,庄子从梦中醒来,困惑于究竟是自己梦见了蝴蝶,还是蝴蝶梦见了他。今天的 AI 协作,也带给我们类似的错觉:我们一边给大模型写 Prompt、投喂 Context、鼓励它进入创造状态;另一边,我们自己却在流程、工单、SOP 和评测指标中,越来越像一个标准化的接口。
于是,一个有趣的角色反转出现了:我们把 AI 当作人类来使用,接受它的涌现能力、幻觉和不确定性;同时,我们也把自己当作 AI 来要求,将沟通前提、输入输出、执行边界和健康度进行全面工程化。
Harness 就是那个梦境边缘的守护者。它不判断谁在做梦,只保证 AI 梦醒时有规则兜底,人类疲惫时有流程支撑。最终的命题不是“AI 会不会写代码”,而是“我们能否将 AI 纳入一套可控、可度量、可复用的工程协作系统”。这才是从狂野代码走向按目标高质量生产的真正跃迁。

碳硅梦蝶:Harness 是梦境边缘的护栏,更是工程协作的安全网。
