得物推荐AI Harness工程化：从狂野代码到按目标生产_AI热点日报

得物推荐AI Harness工程化：从狂野代码到按目标生产

类型：热点整理2026-07-04

目录一、从 AI Coding 迈向 AI Builder 的进化之路二、为何仅靠 AI Coding 难以支撑复杂工程三、Harness 的本质解析：不是禁锢的牢笼，而是协同的环境四、Plan 阶段：借助 Contract 将需求转化为安全护栏五、Do 阶段：实现 AI 开发的零等待体验

一、从 AI Coding 迈向 AI Builder 的进化之路

二、为何仅靠 AI Coding 难以支撑复杂工程

三、Harness 的本质解析：不是禁锢的牢笼，而是协同的环境

四、Plan 阶段：借助 Contract 将需求转化为安全护栏

五、Do 阶段：实现 AI 开发的零等待体验

六、Check 阶段：让推荐效果实现 7x24 小时持续可量化

七、Act 阶段：将 Bad Case 转化为下一轮迭代的核心能力

八、七阶段护栏之外，仍需关注的三大深层挑战

九、知识治理体系：文档面向人类阅读，Coding 为 AI 设定边界

十、推查查系统：Highway 与 ATV 混合智能体架构深度解析

1. Highway 路径：代码驱动的确定性保障

2. ATV 路径：长尾问题的受控探索机制

十一、NOW 实践：从单点效率提升迈向工程复利效应

十二、尾声：碳硅交融的蝶梦启示

本文整理自得物技术专家在 AICon 上海站发表的演讲实录。

作为「得物推荐 AI Harness 工程化实践系列」的开篇之作，整个系列规划共三篇，将系统性地梳理得物推荐在复杂业务场景中，围绕 AI 代码生成、安全防护校验到稳定上线的完整技术体系。内容涵盖自研 AI Harness 的整体架构设计、全生命周期安全防护机制、混合智能体算法的核心实现思路，以及工业级工程落地的关键细节。

本篇为上篇，重点聚焦团队自研的 AI Harness 体系：建设初衷与思路是什么、全生命周期防护机制如何搭建、混合智能体架构的具体形态，以及最终在实际业务中取得的落地成效。

一、从 AI Coding 迈向 AI Builder 的进化之路

AI 自动生成代码在今天已经不算新鲜事。但真正让行业普遍感到棘手的核心问题是：如何让 AI 在复杂的业务系统中，能够始终按照既定目标、严格边界和质量标准，持续稳定地产出可用的工程代码？

得物推荐团队给出的答案非常明确：不是再去开发一个更擅长写代码的工具，而是围绕 PDCA 全链路，构建一套完整的 AI Harness 体系。让需求变得可约束、执行过程不断点、效果能够被度量、经验可以被复用。

过去一年，AI Coding 的用户体验成熟速度非常快。它能够编写代码、补充测试用例、修复程序缺陷，甚至在一些局部任务中表现出极高的效率。但在真实的工程系统里，“代码能跑”和“按目标高质量生产”之间，依然存在巨大的鸿沟。

推荐系统尤其如此：链路长、模块多，修改一处可能牵动多路召回策略；效果变化往往难以解释，工程经验也很难沉淀为标准化的操作流程。如果 AI 仅仅停留在 Do 这个执行阶段，它最终只是一个速度更快的代码生成器，而不是一个能够真正推动业务持续迭代的工程伙伴。

核心变化在于：AI 化的不应只是单一的开发环节，而是整个迭代周期的完整闭环。

二、为何仅靠 AI Coding 难以支撑复杂工程

传统工程迭代可以抽象为经典的 PDCA 循环：Plan 阶段对齐目标和边界，Do 阶段完成开发与实现，Check 阶段验证效果和识别风险，Act 阶段沉淀经验并进入下一轮优化。AI Coding 主要解决的是 Do 这个环节的效率问题，但复杂系统中导致失败的原因，往往并不只发生在 Do 阶段。

因此，我们的目标不是让 AI “更会写代码”，而是让 AI 能够真正融入完整的迭代飞轮：目标更加清晰、执行不断点、效果可量化、经验可复用。

从 AI Coding 到 AI Builder 的转变：代码能跑，绝不等于按目标高质量生产。

三、Harness 的本质解析：不是禁锢的牢笼，而是协同的环境

在深入探讨 Harness 之前，可以先联想一部经典电影：《楚门的世界》。楚门被禁锢在一个巨大的虚假世界里，但真正有效的约束并不是摄像头、海岛或演员，而是环境本身——它让楚门发自内心地觉得，这就是世界原本的样子。

优秀的 AI Harness 也是如此。它不是在 AI 外部挂上一串生硬的硬规则，而是将目标、边界、依赖、验证和回流能力深度融入协作环境，让 AI 在“自然行动”的过程中，不容易越界或偏离方向。

好的 Harness 不是冷冰冰的铁笼，而是有机的协作环境。它让 AI 感觉自己是在自由行动，但每一步都天然处于可验证、可回滚、可复用的工程上下文之中。

《楚门的世界》启示：最有效的 harness 是环境本身，让他觉得，世界本该如此运转。

七阶段护栏机制：将 PDCA 拆解为可度量的协作层面

七阶段护栏：全面覆盖并落地 PDCA 闭环。

四、Plan 阶段：借助 Contract 将需求转化为安全护栏

很多需求最终失败，核心原因并非代码写得不好，而是从最开始的阶段就理解错了。用自然语言撰写的 PRD，对人类阅读者来说尚且存在歧义，对 AI 而言更是如此。因此 Plan 阶段的关键任务，是将需求改造成 AI 能够理解、能够执行、能够验证的结构化契约。

在得物推荐的工程实践中，T-PRD 会将需求拆解为多个 EP（执行单元），每个 EP 再绑定明确的影响范围、指标方向、稳定性红线和验收断言。以“负反馈调权”场景为例，产品提出“用户点击不感兴趣，希望减少类似商品推荐”，工程上就需要拆解为信号接入、多粒度降权策略、实验与指标护栏等可执行的单元。

feature: negative_feedback_rerank
goal: 用户点击“不感兴趣”后，减少相似商品曝光
scope:
  - Signal: not_interested/dislike
  - Ranking: item/spu/shop/brand
guardrails:
  - 禁止核心点击率显著劣化
  - 必须保留多样性与新颖性观察指标
  - 所有影响模块需具备可回滚路径

五、Do 阶段：实现 AI 开发的零等待体验

AI 自主开发最怕什么？最怕“等人”。它写完代码跑不起来，拿不到日志，依赖服务不稳定，就会不断回头向人类提问，最终沦为一个非常昂贵的自动补全工具。

六、Check 阶段：让推荐效果实现 7x24 小时持续可量化

推荐系统的 Check 环节极具挑战性，因为很多时候连团队自身也无法简单直观地判断“这次推荐的效果到底好不好”。传统方式依赖 AUC、GAUC、线上实验和人工评审，成本高昂且反馈周期漫长。

Axis 推荐 AI 评测平台引入了 AI 评审员机制，可以模拟不同用户画像，从新颖性、内容质量、相关性等多个维度对推荐结果进行系统化评分。它的目的不是替代线上实验，而是在上线前增加一层体验风险的早期雷达。AI 负责全量评分，专家负责抽样复核，复核过程中沉淀的知识再持续回灌到评测体系中。

关键点在于：AI 评测的核心目的不是为了证明模型一定正确，而是为了让体验风险能够更早暴露，让评审口径可以持续沉淀和迭代。

Check 环节：Axis 推荐 AI 评测平台，将体验评审升级为 7x24 小时不间断的自动化评审流程。

七、Act 阶段：将 Bad Case 转化为下一轮迭代的核心能力

线上出现异常时，系统会进入 Bad Case 捕获、智能诊断、沙箱复盘和 Story 沉淀的完整流程。一次问题排查，不应该只留下一个简单的结论，而应该留下下一次能够直接复用的路径和方法论。

八、七阶段护栏之外，仍需关注的三大深层挑战

流程护栏能够解决大量显性问题，但 Agent 本身仍然存在固有局限：知识会丢失、行为会漂移、路径不够透明。这些挑战并非某一个阶段的特有问题，而是 Agent 在工程化承载过程中普遍面临的共性难题。

九、知识治理体系：文档面向人类阅读，Coding 为 AI 设定边界

有一个广为流传的程序员笑话：程序员最不喜欢两件事，第一是别人不写文档，第二是我自己写文档。AI 也面临类似的困境——你不告诉它规则，它就会随意发挥；你用纯自然语言告诉它，它又很难稳定地理解边界和约束。

得物推荐将知识体系划分为三个层次：L1 是整体架构层，定义不可逾越的行动边界；L2 是模块设计文档层，解释关键的技术取舍和依赖关系；L3 是代码注释层，最贴近 AI，在读取代码时随用随取，无需额外查找。

在实验验证中，补充 L3 注释后，简单问题的回答准确率从 52% 显著提升到了 91%，复杂问题的准确率更是达到了 100%；与此同时，简单题的整体 token 消耗下降了 48%，复杂题下降了 26%。单次上下文虽然可能变长，但任务完成的轮次大幅减少，整体成本反而实现了下降。

L3 注释评测结果：让模型从盲目猜测走向可验证的确定性输出。

十、推查查系统：Highway 与 ATV 混合智能体架构深度解析

在推荐链路的排查场景中，有一个非常现实的观察：80% 的问题是高频、可归类、可复现的，而剩余 20% 的问题是长尾、复杂、需要探索性分析的。这两类性质截然不同的问题，不应该使用同一种 Agent 路径去解决。

Highway 路径：代码驱动的确定性保障

一个经典的玩笑是：女朋友让你买两根香蕉，如果看到卖苹果的，就买四根。人类会脑补和猜测，到底买香蕉还是苹果；代码不会，它只会严格按照条件执行。

Highway 的设计原则异曲同工：优秀的 Highway 不是更会猜测，而是根本不脑补。将稳定路径写进代码，让每一次执行都在同一个地方执行、同一个地方观测、同一个地方定位错误。LLM 只负责最终结果的自然语言润色。

ATV 路径：长尾问题的受控探索机制

剩余 20% 的长尾问题，无法依靠写死的程序逻辑来全面覆盖。ATV 提供工具集、MCP 协议和约束条件，让 Agent 按照 ReAct 模式自主拆解问题、调用工具、读取结果、生成结论。探索成功后，Memory 模块会对轨迹进行剪枝优化，将 UID 这类一次性特征升维为通用的业务变量，再经过 Dry Run 准入验证，沉淀为新的 Highway 能力。

Memory 机制：将一次成功的探索，转化为下一次的默认能力。

十一、NOW 实践：从单点效率提升迈向工程复利效应

当 Plan、Do、Check、Act 各个环节都被 AI Harness 纳入系统化治理之后，收益就不再是“某个人写代码变快了”，而是整个迭代系统开始真正运转起来，形成正向循环。

这套体系的核心价值，不在于让 AI 替代工程师，而在于让工程系统本身，变得更加适合人和 AI 协同工作。

十二、尾声：碳硅交融的蝶梦启示

两千多年前，庄子从梦中醒来，困惑于究竟是自己梦见了蝴蝶，还是蝴蝶梦见了他。今天的 AI 协作，也带给我们类似的错觉：我们一边给大模型写 Prompt、投喂 Context、鼓励它进入创造状态；另一边，我们自己却在流程、工单、SOP 和评测指标中，越来越像一个标准化的接口。

于是，一个有趣的角色反转出现了：我们把 AI 当作人类来使用，接受它的涌现能力、幻觉和不确定性；同时，我们也把自己当作 AI 来要求，将沟通前提、输入输出、执行边界和健康度进行全面工程化。

Harness 就是那个梦境边缘的守护者。它不判断谁在做梦，只保证 AI 梦醒时有规则兜底，人类疲惫时有流程支撑。最终的命题不是“AI 会不会写代码”，而是“我们能否将 AI 纳入一套可控、可度量、可复用的工程协作系统”。这才是从狂野代码走向按目标高质量生产的真正跃迁。

碳硅梦蝶：Harness 是梦境边缘的护栏，更是工程协作的安全网。

来源：https://www.bestblogs.dev/article/984f4a86?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item

ai

延伸阅读

补充最近整理过的热点入口。