AI项目失败主因在工程而非模型

时间：2026-06-26 15:42

耗费两周搭建的 RAG Demo，演示会结束时全场响起掌声。业务负责人与 VP 握手致意，称这是“年度最具突破性的项目”。然而三个月后，后台数据显示日活用户数——归零。并非逐步衰减至零，而是从上线第二周起便始终为零。无人批评、无人投诉，只是无人使用。这个项目由我全程主导。在亲身参与和近距离观察

耗费两周搭建的 RAG Demo，演示会结束时全场响起掌声。业务负责人与 VP 握手致意，称这是“年度最具突破性的项目”。

然而三个月后，后台数据显示日活用户数——归零。

并非逐步衰减至零，而是从上线第二周起便始终为零。无人批评、无人投诉，只是无人使用。

这个项目由我全程主导。在亲身参与和近距离观察过的十余个 AI 项目中，这样的结局并非特例，而是常态。

曾在电商行业从事多年后端架构，带领过应对大促流量高峰的团队，随后转型专注 AI 落地实践。期间经历过不少 AI 项目，真正存活下来的不足三成。

这并非个人主观感受。MIT 在 2025 年发布的 NANDA 调研显示，95% 的企业级 Gen AI 项目未能产生可衡量的商业回报；RAND 同年访谈了 65 位资深数据科学家，结论是超过 80% 的 AI 项目以失败告终，失败率是普通 IT 项目的两倍；Deloitte 2025 年的数据更为直观——42% 的企业已砍掉至少一个 AI 项目，每个被终止项目的平均沉没成本高达 720 万美元。

资金大量涌入，其中绝大部分被消耗殆尽。

过去一年中，我愈发确信一个判断——绝大多数 AI 项目，失败根源在于工程层面，而非模型本身。

此处所说的工程，并非狭义上的编写代码。它涵盖数据管道的就绪程度、评测体系的建立，以及让系统持续改进的闭环能力。

工程，正是连接业务判断与大模型能力之间所有繁琐而关键的落地工作。

决定一个 AI 项目成败的关键，往往不在于你选用的是 GPT-4o 还是 Claude，也不在于你的 RAG 系统采用了几路召回策略，而在于：你的数据管道能否真正跑通，你的评估流程能否实现自动化，你的团队在三个月后是否仍愿意持续维护这套系统，你的老板是否真正理解这个项目需要六个月而非六周的时间投入。

这些事情，没有一件是模型能够替你解决的。

基于这一判断，我将“落地一个商业 AI 项目”拆解为七个层级——放翁七关。每一层都阐明：核心决策是什么，判断依据是什么，以及踩过哪些坑。

第一关立项判断算不出 ROI，就别立项

第二关场景收敛 Eval 是业务与技术的铰链

第三关技术选型选最可控的，不是最先进的

第四关工程落地两个黑洞：脏数据与恶意输入

第五关评测迭代评测不是技术，是信任基建

第六关组织协作项目不是被技术杀死，是被失望杀死

第七关持续运维活过六个月靠的是运维闭环

▲ 越往下，越不像“AI 工作” ▲

第一关 · 立项判断

这件事值不值得用 AI 做

在写下第一行代码之前，架构师与 VP 需要回答的问题并非“AI 能否完成这件事”，而是——采用 AI 来完成这件事，相比不用 AI 究竟好在哪里？好多少？这种“好”能否量化为具体的商业价值？

大多数 AI 立项的 ROI 论证往往是倒置的：先决定“我们要做 AI”，然后再寻找场景来适配。这与十年前“我们要建中台”的思路如出一辙，结局也大致相似。

正确的立项逻辑应该是这样的：理赔审核员每天需要处理数百单案件，其中约 60% 是标准件——金额较小、材料齐全、规则明确——但每一单仍需要人工审阅十几份文档、核对条款、填写结论。痛点不在于“人判断不了”，而在于“人判断得太慢、成本太高”。AI 的价值点十分清晰：将标准件的审核时间从 15 分钟压缩到 2 分钟。目标不是替代人，而是帮助人处理确定性较高的那部分工作。

反过来，如果你的立项逻辑停留在“做一个智能 XX，提升效率”这一层面，没有进一步追问“提升谁的效率、从多少提升到多少、省下来的钱能否覆盖推理成本”——那么这类项目大概率会走向失败。问题不在于目标本身，而在于目标没有拆解到可计算、可核算的颗粒度。在智能客服场景中，“提升用户体验”这一表述本身并不模糊——CSAT、NPS、首次解决率都是成熟指标——模糊的是你打算改善哪个指标、改善多少、以什么样的代价去实现。三个月后老板追问 ROI，你依然无法回答。

一个明确的判断标准是：合格的 AI 立项必须能够回答三个数字——每单节省多少时间、覆盖率能达到多少、总成本相比纯人工节省多少。如果算不出来，就不要立项。

第二关 · 场景收敛

把模糊需求变成可衡量的任务

立项之后，最危险的阶段并非技术攻关，而是需求的无序膨胀。

做过后端架构的人都知道，一个系统最怕的往往不是技术难度，而是需求没有边界。AI 项目尤其如此——Demo 的制作门槛太低了。你花一天时间搭建一个 RAG Demo，展示给业务方看，他们兴奋地说：“太厉害了，能不能再加 XX 功能？能不能再覆盖 XX 场景？”然后你的系统从“理赔文档审核”迅速膨胀成“智能理赔全流程平台”。

这正是死亡信号。

正确的做法是：在 Demo 展示之后、正式开发之前，强制完成一件事——定义评估标准。将模糊的需求翻译成“给定输入 X，系统应输出 Y，好坏的标准是 Z”。

以理赔审核为例，评估可分为三个层次：

第一层，文档解析正确率——关键字段是否被准确提取

第二层，条款匹配准确率——系统引用的条款与审核员判断的一致比例

第三层，端到端决策一致率——通过或拒绝的结论与人工判断的一致比例

每一层使用不同的指标，独立进行评测。第一层不过关，第三层就不可能做好——这样你就能清楚地知道问题出在哪个环节，而不是对着一个黑箱凭感觉调整参数。

RAND 那份报告中指出，AI 项目失败的首要根本原因是“利益相关者对问题的误解与沟通不畅”。如何实现对齐？开会没有用，写 PPT 也没有用。唯一能将业务方和工程团队拉到同一张桌子上的工具，就是评估体系。

没有评估体系，业务方无法判断系统的好坏，信任会逐渐流失；没有评估体系，工程师不知道修改是否正确，只能盲目迭代，系统会逐渐腐烂。

评估体系不仅是技术手段，更是连接业务与工程的铰链。

一个重要的判断标准：场景收敛的标志不是 PRD 文档已经写完，而是评估流水线已经跑通——并且业务方和技术团队坐下来，将评估的通过标准正式签字确认。

第三关 · 技术选型

选最可控的，不是最先进的

场景和评估标准定义清楚之后，才轮到技术选型。

我见过太多团队在这一步翻车的方式：花两周时间评测向量数据库，花一个月对比 LangChain、LlamaIndex 与自研方案，花三个月搭建一套五级 RAG 流水线——query rewrite、HyDE、multi-hop、rerank、fusion 全部用上——然后上线后发现，用户根本不按照预设的方式提问。

技术选型的核心原则并非“选择最先进的”，而是“选择最可控的”。可控意味着：出现问题能够快速定位到具体环节，能够快速替换某个组件而不影响全局。

做过电商架构的人对这一原则不会陌生——大促系统的核心设计原则就是“可降级、可熔断、可灰度”。AI 系统同样如此。

选型框架包含四个关键问题。

一，确定性的部分有多少？

如果场景中 70% 的逻辑是确定性的（如规则判断、条件校验、格式验证等），这些部分不要交给大模型处理。使用传统代码来实现，稳定、快速、成本低。大模型只负责那 30% 的不确定性部分——自然语言理解、文档信息提取、复杂条款的语义匹配。

Anthropic 的「Building Effective Agents」讲得很清楚：大多数商业场景需要的是 Workflow（预定义工作流），而不是 Agent（自主规划）。那些在硅谷媒体和中文科技号上被反复追捧的“自主 Agent”，放到真实的保险理赔场景中，99% 的情况下，Workflow 更便宜、更可控、也更易于维护。

但“Agent”这个词实在太吸引人了，所有人都想尝试——包括那些从未跑通过一个真实业务闭环的人。

二，数据能否形成闭环？

如果场景能够持续产生标注数据——比如理赔场景，每一单最终都有人工审核结论——那么你就有了微调的基础。先用 RAG 快速上线，积累数据，等数据量足够后再对特定环节进行微调。这比一上来就直接微调要务实得多。

三，自建还是购买？

这不仅是经验法则，也有冰冷的数据支撑。Menlo Ventures 2025 年报告显示，企业 AI 支出中 76% 用于购买而非自建；MIT NANDA 的研究发现，采用购买或合作方式的成功率是自建的 3 倍。

在基础设施上重复造轮子，是架构师最容易犯的傲慢错误。你的核心壁垒在于对本行业数据和业务逻辑的深入理解，而不是自己手撸一个向量召回引擎。

一个值得遵守的原则：核心管道自己编写，基础设施使用现成的。模型调用 API，向量库使用云服务，可观测性使用现成工具。但编排层——将各组件串联起来的胶水代码——一定要自己写。这一层包含你所有的业务逻辑，是最频繁变动的部分，过度依赖框架会被锁死。

四，延迟和成本能否算得过来？

这个问题被严重低估了。在做 RAG 时，一味堆叠召回和排序环节——query rewrite 加 HyDE 加 rerank 加 fusion——不仅模型容易在过长的上下文中迷失方向，还会把首字延迟拉到十几秒，用户根本等不了。再加上每单几毛到几块钱的 token 成本，如果业务单件利润无法支撑，这个系统就会成为一个持续流血的窟窿。

做过电商的人对这个账不会陌生：每一跳都有成本，每一层都有延迟，架构不是越复杂越好，而是越精简越好。

至于算法工程师在这一关里扮演什么角色——从第一天的任务拆解，到持续的错误归因，再到后期的蒸馏与微调——这足够写一篇独立的文章，下一篇再详细展开。这里只提一句：工程师是建造者，算法工程师是诊断师。两个角色缺一不可。

一个核心判断：先跑通最短链路，再逐个环节替换和优化。不要一上来就搭建“完美架构”。选型时永远先算一笔账——按当前日均请求量，月推理成本是多少，单次请求延迟能否控制在用户可接受的范围内。算不过来的架构，技术再先进也是死路一条。

第四关 · 工程落地

从 Demo 到 Production 的鸿沟

这一关我最有发言权。电商后端那些年的经历教会我一件事：一个系统的难度，80% 体现在上线之后。

工程落地面临两个黑洞，一个来自物理世界的混乱，一个来自人心的不可控。做过后端的人应该不会陌生——你的系统永远在与两种东西作战：脏数据和恶意输入。AI 系统同样如此，只是烈度更高。

第一个黑洞：非标数据。

Gartner 2025 年预测，到 2026 年底，60% 的 AI 项目将因数据质量不达标而被放弃。Informatica 同年的 CDO 调查更直白——只有 12% 的组织认为自己的数据质量达到了 AI 应用的要求。“数据就绪度”在所有权威调研中都是头号死因，占比接近 30%。

这意味着什么？意味着你那个花了三个月调参的精巧 RAG 系统，在真实世界的脏数据面前会瞬间崩溃。Demo 阶段，数据是手动清洗过的，查询是自己构造的，用户就是你自己。一切看起来都很好。上线后你面对的是：拍歪的照片、扫描模糊的 PDF、手写病历、格式各异的费用清单。你的文档解析管道在这些脏数据面前溃不成军。

举一个真实的例子。Demo 阶段，我们喂给系统的全是扫描清晰的 PDF 白皮书。上线第一天遇到的第一张真实票据，是一张被揉皱了又展平、盖着红色印章、拍照时手指还挡住一角的照片。Pipeline 直接挂了——OCR 识别率从 Demo 时的 97% 掉到了不足 40%。

后来我们发现，在这个场景下，写 300 行用于处理图片透视变形和印章去除的传统 CV 代码，比调整 30 个 prompt 都管用。

数据质量是 AI 系统的地基，但它恰好是所有人最不愿意投入精力的部分。因为这不是“AI 工作”——清洗、解析、格式统一、异常处理——全是后端工程师熟悉的脏活。如果一开始就把 50% 的资源投入在数据管道上，结局会完全不同。

第二个黑洞：恶意输入。

当系统接触真实用户输入时，你必须假设用户会输入任何内容。Simon Willison 提出的 Lethal Trifecta——私有数据访问 + 外部内容输入 + 外发能力——三者同时存在时，prompt injection 风险无法在 prompt 层面解决，只能通过架构隔离来应对。

更别提在金融、医疗、保险等行业，将敏感数据（病历、保单、身份信息）传给公网 API 所带来的合规红线——这已经不是工程问题，而是法律问题。

这与做电商时处理支付安全的思路如出一辙：安全不是一项功能，而是架构的基石。

一个建议的资源分配方案：团队资源分配应为——数据管道 40%，核心 AI 逻辑 30%，评估与监控 20%，前端和产品 10%。而大多数团队将 70% 的资源花在了 AI 逻辑上，本末倒置。

第五关 · 评测迭代

从“能跑”到“能信”

系统上线了，老板和业务方会问：“准确率是多少？”

如果你答不上来，或者给出的数字缺乏置信度，那么这个项目就开始失去信任。失去信任的项目不会因为技术更出色而逆风翻盘——因为没有人再愿意给你资源和时间了。

评测不是技术环节，而是信任基础设施。

一个可行的做法是：每周从线上流量中抽取 200 单，让资深审核员进行二次审核作为基准真相，自动计算决策一致率。这个数字每周在团队周报中透明公示。业务方可以清晰地看到系统是在变好还是变差。

举一个反面例子。早期有一个月，为了赶一个新功能上线，我们把周度评估停掉了。那个月底，上游模型服务做了一次默默的版本更新，系统的条款匹配准确率悄悄从 91% 掉到了 78%。这件事不是我们自己发现的，而是业务方从审核员的抱怨——“最近引用的条款有点怪”——中挖掘出来的。

信任裂缝一旦出现，修复的成本远比你想象的高——接下来两周花了大量时间重跑评估、给业务方复盘、承诺建立新的监控机制。从那以后，评估再也没有漏跑过一周。

做好这件事需要三个前提：标注资源（与业务团队协调出的人力）、自动化评估流水线（不能每周手动跑）、评估结果与系统变更之间的关联（这周改了什么，数字变了多少）。

一个关键判断：评估投入应该占项目总工时的 20% 以上。这个比例在大多数团队看来“太多了”。但我反复验证过——评估投入不足的项目，六个月后一定会进入“改了也不知道变好没”的黑暗期。

第六关 · 组织协作

项目不是被技术杀死的，是被失望杀死的

这一关很少有技术博客会涉及，但它可能是最致命的一关。

做 AI 落地，最难的不是写代码，而是管理预期。

Deloitte 2025 年的调研给出了一条精确的死亡时间线：56% 的失败项目中，高管支持在六个月内蒸发。为什么？因为业务方看了 Demo 后觉得 AI 无所不能，期望值被拉满。上线后发现覆盖率只有 70%、还有 30% 需要转人工处理，他们会问：“这也叫 AI？”

项目不是被技术杀死的，而是被失望杀死的。

第一次签署“能力边界协议”其实是被动的——不是主动想到的，而是之前一个项目上线后被业务方投诉“说好的 AI 为什么还要人工复核”，才痛定思痛倒逼出来的做法。现在回想，那个项目如果早三个月签署这份协议，可能就不会失败。

项目启动时与业务方签署一份“能力边界协议”——白纸黑字写明：第一期覆盖哪些场景、不覆盖哪些、预期准确率是多少、什么情况下转人工处理。这不是技术文档，而是信任契约。

它的形式如下：

功能模块	本期范围	不在本期范围	验收标准	异常兜底方案
发片识别	机打发片	手写发片	字段准确率 ≥ 98%	转人工录入
条款匹配	单一险种	跨险种交叉判断	条款召回率 ≥ 90%	提示“建议人工复核”
审核决策	标准件（金额 < 5 万）	重大疾病/高额件	与人工一致率 ≥ 85%	自动转资深审核员

有了这张表，业务方不会在上线后追问“为什么手写发片识别不了”，因为白纸黑字写着“不在本期范围”。技术团队也有了明确的交付标准，不会陷入“永远在优化但永远不够好”的泥潭。

另一个问题是团队融合。后端工程师习惯于确定性——输入确定，输出确定，测试通过就行。算法工程师习惯于概率性——80% 的准确率就是好结果。这两种思维方式要在同一个系统里共处，需要共同的评估标准作为对齐工具。评估体系不仅是技术手段，更是团队沟通的共同语言。

一个重要的判断：架构师或 VP 至少要花 30% 的时间在非技术工作上——向上管理预期，横向协调业务团队，向下统一工程标准。如果 100% 的时间都花在技术上，项目大概率会死在组织层面。

第七关 · 持续运维

活过六个月靠的是运维闭环

大多数 AI 项目的生命周期是这样的：第一个月兴奋，第二个月上线，第三个月发现问题，第四到第六个月疲于修补，第七个月被砍掉或被遗忘。

活过六个月的系统和死在六个月的系统，技术栈几乎没有区别。区别在于是否建立了运维闭环。

运维闭环包含三件事。

一，数据更新机制。知识库不是灌一次就一劳永逸的。保险条款会更新，理赔政策会调整，新的案例类型会不断出现。我有过一次教训：某个知识库灌完之后半年没有更新，结果系统引用给审核员的条款中，有一条已经被总部废止了——幸好审核员经验丰富，没有直接采用。那次之后，我们建立了条款更新的 webhook 机制：任何条款变动，24 小时内自动触发重新分块、嵌入、入库，再自动跑评估回归，确认新数据没有破坏已有能力。

二，模型漂移监控。API 模型会悄悄更新，你的系统表现会随之波动。需要持续运行评估，核心指标下降超过阈值就触发报警。这与电商大促的监控思路一样——不是出了问题再查，而是实时盯防。第五关中讲到的那次信任事故，正是因为少了这一步。

三，用户反馈回路。审核员觉得系统建议不对时，能够一键标注“不同意”。这些标注积累起来就是最宝贵的迭代数据——它能告诉你系统在哪些类型的案例上表现不佳，为下一次改进指明方向。

一个明确的判断：立项时就要把运维成本算进 ROI。一个 AI 系统的月运维成本（推理费 + 数据管道 + 评估 + 人力）大约是开发成本的 15%–20%。如果这个数字你接受不了，说明这个项目的商业逻辑本身就不成立。

写在最后

七关走下来，你会发现一个规律：越往下，越不像“AI 工作”。

商业判断、需求定义、数据工程、组织管理、运维——这些事情，十年前做后端架构时就在做，只是换了一个语境而已。

这也是为什么说“败在工程，不是模型”——但工程的起点不是写代码，而是定义评估标准。

评估标准是连接业务判断与用户价值之间的铰链，是让 95% 的失败率不落在你头上的唯一杠杆。

模型能力在过去两年突飞猛进，但工程的基本功——数据治理、评估、监控、运维、预期管理——不会因为模型变强就自动解决。恰恰相反，模型越强，Demo 越容易做，团队越容易跳过基本功直接冲上线，然后在三个月后摔跟头。

在所有人都在追逐 Agent 和 Reasoning 的时候，先确保你的文档解析管道不会在遇到一张歪了 15 度的照片时崩溃。

你手里有没有活过六个月的 AI 项目？或者已经失败、想要复盘的项目？欢迎在评论区告诉我它长什么样——精彩的故事我会挑选几个，写进下一篇。

下一篇预告：算法工程师在 AI 项目里到底应该做什么——从第一天到上线后的分阶段发力。

来源：https://cloud.tencent.com.cn/developer/article/2695343

上一篇阿里云Tair兼容Redis对接使用指南 下一篇AI改造老系统与数据系统面临的共同困境

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。