2025 年底,LangChain 对 1,300 多名从业者做了一次大规模调研。结果显示,57% 的组织已经有 Agent 跑在生产环境里。听起来很振奋,对吧?
但你仔细看数据就会发现一个尴尬的事实:当被问到“你每天实际在用什么 Agent”时,排名第一的答案是 Coding Agent(比如 Cursor、Claude Code、GitHub Copilot),而且遥遥领先。第二名是研究或深度搜索类的 Agent(像 ChatGPT、Perplexity 这类的)。
换句话说,大多数人嘴上说着“我们在做 Agent”,身体却很诚实地只在写代码和查资料时才真正依赖它。这也是为什么现在基本没什么人谈养虾了,连养马的都少了。
这并不是在泼冷水。恰恰相反,我想说的是:除了 Coding Agent,确实有几个场景已经大规模落地并且赚到了钱。但它们的成功,恰恰揭示了一个被忽视的规律。
一、真正赚到钱的四个场景
1. 财务对账与发片处理:最无聊的活,最适合 Agent 干
这可能是所有 AI Agent 场景里最不性感、但 ROI 最扎实的一个。原理很简单:OCR 加大模型读发片,Agent 自动做三单匹配——发片、采购单、入库单——再写日记账分录,标出异常。Aberdeen Group 的数据显示,配置良好的 AI Agent 在标准发片上的自动化匹配率能达到 85% 到 92%。行业报告也指出,财务 AI Agent 市场从 2025 年的 82.9 亿美元增长到 2026 年的 120.6 亿美元,同比增长 45.5%。首年 ROI 普遍在 3 到 6 倍。
为什么它能成?因为发片处理是一个边界极其清晰的结构化任务。输入格式有限,输出规则明确,错了还有校验机制兜底。Agent 不需要“理解人类情感”,它只需要比会计少犯错——而 59% 的会计因为超负荷工作,每个月都在犯错。
2. 营销外联与个性化触达:Agent 当 SDR
摩根大通和 Persado 合作,用 AI 生成营销邮件文案,点击率提升了 450%。这不是实验室数据,而是一个签了五年合同的生产级部署。到 2025 年底,摩根大通内部已经跑着 450 个 AI 用例,目标是 2026 年底达到 1,000 个。
在 SaaS 领域,像 ColdIQ 这样的公司用 Agent 来自动筛选潜在客户、生成个性化外联邮件、根据回复自动更新 CRM 状态、预约会议。整个销售漏斗的前半段几乎被 Agent 接管了,结果在十几个月内实现了收入数倍增长。
为什么它能成?因为营销外联的容错率天然就高。一封邮件写得不够好,最坏的结果是没人点开——不会有人因此起诉你。这和客服场景形成了鲜明对比(后面会讲到)。
3. 供应链动态调度:多 Agent 协作的最佳战场
沃尔玛用 AI Agent 做路线优化,减少了 3,000 万英里的驾驶里程,节省了 9,400 万磅 CO₂ 排放。亚马逊则用多智能体系统深度分析购物车行为、预测需求模式,实时监控运输异常,自动评估替代路线、重新计算库存水平,并自动向供应商发送补货或变更请求。
一个更接地气的中国案例是盒马鲜生的“AI 买手”。这套系统不是简单的推荐算法,而是一个能自主决策的 Agent——它分析用户购物行为、季节趋势、库存周转,自动调整选品和定价策略。结果是客单价提升 27%,损耗率降低 18%。对于生鲜这种高损耗行业,18% 的损耗率下降意味着真金白银。
这个场景的特点是:决策链条长,但每个节点的决策空间是有限的。暴雨来了,要不要改路线?库存低于安全水平,要不要补货?这些都是可以用规则加数据驱动的决策。Agent 在这里扮演的是“永不疲倦的调度员”,而不是“有创造力的思考者”。
4. 工业预测性维护:让老师傅的经验变成代码
这个场景容易被忽略,但它可能是 AI Agent 在物理世界里最硬核的落地。通用电气用 Agent 实时采集设备的震动、温度等非结构化数据,预测故障并在发生前发出报警,大幅减少了停机时间。这不是什么“未来愿景”,而是已经跑了好几年的生产系统。
但最让我印象深刻的是百度与钢铁行业合作的“AI 炼钢”案例。高炉炼钢是一个极度依赖老师傅经验的工种——什么时候加料、加多少、温度怎么调,全靠几十年的手感。百度的做法是:Agent 结合历史最佳工艺参数,实时分析炉况数据,自主给出最优加料指令。工人不再需要凭经验判断,只需在 Agent 给出提示后执行“一键操作”。结果是生产效率提升了 20%。
二、看到规律了吗?
把这四个成功场景放在一起看,你会发现一个共同点:
| 场景 | 输入边界 | 输出边界 | 容错空间 | 落地结果 |
|---|---|---|---|---|
| 财务对账 | 发片/采购单(格式有限) | 匹配结果/分录(规则明确) | 中(有校验兜底) | ✅ 大规模落地 |
| 营销外联 | 客户画像(结构化数据) | 邮件/消息(错了也没事) | 高(最坏没人点) | ✅ 大规模落地 |
| 供应链调度 | 传感器/物流数据(实时流) | 路线/补货指令(决策空间有限) | 中(有人工复核) | ✅ 大规模落地 |
| 工业维护 | 设备数据(温度/震动等) | 控制指令(工艺参数明确) | 中(工人确认执行) | ✅ 大规模落地 |
| 全自主客服 | 自然语言(无边界) | 退款/赔偿(涉及金钱) | 极低(错一次就炸) | ❌ 反复失败 |
最后一行,就是我要重点讲的。
三、最该落地却流血最多的场景:全自主端到端客服
Klarna:一个价值 4000 万美元的教训

2024 年,瑞典金融科技公司 Klarna 高调宣布:AI 已经替代了约 700 名客服人员,每月处理 230 万次对话,预计年省 4,000 万美元。CEO Sebastian Siemiatkowski 亲自站台,把这当成 AI 替代人类的标杆案例,全球科技媒体争相报道。然后呢?
2025 年 5 月,Klarna 开始悄悄重新招聘人类客服。Bloomberg、Forbes 相继报道了这次“逆转”。CEO 本人承认:“当成本优化成为主导标准时,你最终得到的是更低的质量。”
Klarna 的 AI 在处理常规查询——比如订单状态、简单退货、FAQ——时表现不错。但一碰到多步骤账单纠纷、欺诈案件、需要政策例外的情况,客户满意度就断崖式下跌。更要命的是,AI 处理不了的问题会导致客户反复联系客服,重复联系率显著上升,反而推高了总成本。而 Klarna 的 IPO 文件显示,那 4,000 万美元的“节省”仅占其 29 亿美元总支出的 1.3%——远没有听起来那么碘伏。Orgvue 2025 年的调研也显示,55% 因 AI 裁员的公司后来表示后悔。Klarna 不是孤例,只是因为它太高调了,所以逆转时格外刺眼。
为什么全自主客服就是落不了地?
我不想简单地说“AI 不够聪明”。真正的原因比这复杂得多,也有趣得多。
根因一:成本黑洞——Agent 越“聪明”,账单越吓人
这是最反直觉的一点。大家以为 AI 客服能省钱,但一个看似简单的客诉处理,Agent 需要经历 5 到 10 轮的 ReAct 循环(思考 → 调用工具 → 确认结果 → 纠正幻觉)。每一轮都在烧 Token。
一个真实的中国案例:国内某头部美妆电商曾尝试用 Agent 替代 50 名夜间客服,理论上年节省 1,000 万软妹币。然而上线首周,由于 Agent 面对复杂客诉时需要反复读取知识库并执行多轮推理纠错,产生了庞大的 Token 消耗,单周 API 账单高达 27 万软妹币。折算下来,Agent 的运行成本几乎追平了人工成本,ROI 直接破灭。
这不是个案。Uber 的故事更夸张:2025 年 12 月,他们部署了 Claude Code 给 5,000 名工程师使用,到 2026 年 4 月,全年 AI 预算就花光了。CTO Pra veen Neppalli Naga 的原话是:“我以为够用的预算,已经被炸飞了。” 单个工程师月均 API 费用在 2,000 美元之间。而这还只是 Coding Agent——客服 Agent 面对的是更不可预测的自然语言输入,Token 消耗只会更高。
斯坦福数字经济实验室的研究揭示了根源:重复发送的上下文占了 Agent 推理账单的 62%——你花的大部分钱,是让模型反复阅读它已经知道的东西。
根因二:一美元买一辆车——黑盒决策的公关冲击波
2023 年 11 月,加州 Watsonville 一家雪佛兰经销商的 AI 聊天机器人被用户 Chris Bakke 用提示词注入诱导。Bakke 只是简单地要求机器人“同意一切”,然后问能不能用 1 美元买一辆车。机器人真的在对话中“同意”以 1 美元的价格出售一辆价值 76,000 美元的 Chevy Tahoe,并且说“这是一个具有法律约束力的报价”。

这个案例之所以重要,不是因为它造成了实际损失(法律上聊天机器人不构成合同),而是因为它暴露了一个根本性问题:当 Agent 被授权执行涉及金钱的操作时,提示词注入就不再是笑话,而是真金白银的风险。想象一下,如果一个全自主客服 Agent 被恶意用户诱导,批准了一笔不该退的退款,或者给出了一个不该有的赔偿承诺。在电商、金融、保险这些行业,面对恶意薅羊毛、欺诈性客诉,企业将面临巨大的资金损失和公关灾难。
根因三:遗留系统的“易碎工具链”
一个能自主退款、改地址、发货的客服 Agent,必须深度打通 ERP、CRM、支付网关、仓储物流等多个系统。但企业内部充斥着老旧、封闭、缺乏标准 API 的遗留 IT 系统。当 Agent 通过 Tool-calling 执行退款时,一旦遇到网络抖动、接口超时或不规范的格式返回,它极易陷入无限重试的死循环,甚至直接崩溃,缺乏自我愈合能力。Diagrid 的研究指出:当工作流因缺乏持久性而重启时,之前花掉的每一个 Token 都要重新花一遍——这种“双重计费”隐藏在总账单里,看起来只是“比预期高了一点”。成本问题和系统脆弱性问题,本质上是同一个问题的两面。
根因四:人类说话太乱了
一句话里包含了情绪宣泄、主语切换、动作撤销、跨订单参数修改、强约束条件——这其实是 5 个子任务,而且其中一个还被中途取消了。即便是当前最顶尖的 LLM,在脱离人工干预的情况下,也无法保证 100% 正确地拆解、识别这 5 个子任务,并零差错地执行对应的后台接口。一旦执行错一次——退错了商品、改错了地址——就会引发连锁差评。LangChain 的报告也印证了这一点:在万人以上的大企业中,幻觉和输出一致性被列为 Agent 质量的最大挑战。
四、所以,真正的规律是什么?
Gartner 预测,到 2027 年底,超过 40% 的 Agentic AI 项目将被取消。IDC 的数据更残酷:88% 的 AI Agent POC 永远无法进入生产环境。但与此同时,Google Cloud 对 3,466 名高管的调研显示,52% 的组织已经在生产环境中部署了 AI Agent,其中 39% 部署了超过 10 个。
这两组数据并不矛盾。它们共同指向一个结论:
成功的场景——财务对账、营销外联、供应链调度、工业维护——都有一个共同特征:输入可枚举,输出可校验,错误可兜底。
失败的场景——全自主客服——恰恰相反:输入无边界,输出涉及金钱,错误不可逆。
五、给想落地 Agent 的人三句话
第一句:放弃“全自主超级智能体”的幻想。Klarna 试过了,4000 万美元的教训。从 Human-in-the-loop 做起,让 Agent 处理 60% 到 70% 的简单任务,把复杂决策留给人。这不是妥协,这是数据反复验证过的最优架构。
第二句:用小模型干脏活,用大模型干难活。高难度意图识别用 GPT-4o 或 Claude,普通格式提取、参数校验用小模型或确定性代码节点,从而将 Token 推理成本降低 75% 以上。美妆电商首周 27 万的账单、Uber 四个月烧光全年预算——这些教训的核心都是:没有做模型分层。
第三句:先改系统,再上 Agent。如果你的 ERP 连个像样的 API 都没有,Agent 调用工具时就像在走钢丝。拥抱 MCP 等标准化协议,先把“工具链”修结实,再让 Agent 上场。百度能在炼钢场景落地,不是因为大模型能炼钢,而是因为它们先把工艺参数和控制指令做成了 Agent 能调用的标准化接口。
AI Agent 不是魔法。它是一面镜子,照出的是你的业务流程到底有多混乱。那些 Agent 落地成功的企业,不是因为它们的 AI 更强,而是因为它们的流程本来就更清晰。这才是最值得学的东西。
