最近几个月,AI 模型的价格战越打越凶。DeepSeek V4-Pro 直接永久降价 75%,百万 Token 输出只要 6 块钱;小米 MiMo-V2.5 更是狠到降了 99%。Token 单价已经跌到历史最低——全国日均词元调用量飙到了 140 万亿次,两年翻了 1000 多倍。
按常理,价格降了,账单总该跟着缩水吧?可几位朋友的反馈恰好相反:月账单不但没降,反而蹭蹭往上涨。有个 SaaS 团队,年初每月花四千多,上个月直接跳到九千多。调用量确实在涨,但到底涨在哪、谁干的、值不值,根本说不清楚。
需求弹性被极度放大
Uber 就是一个教科书式的典型案例。据 Bloomberg 报道,Uber 前四个月就烧光了原本计划给 2026 年全年的 AI 预算。五千多名工程师里,95% 都在用 AI 编码工具,每人每月 Token 支出在 500 到 2000 美元之间。公司 COO 在播客里说,听到预算超支时“脑袋像炸开一样”,现在不得不给每人设了每月 1500 美元的硬上限。
贝恩对 951 家企业的调查结论更扎心:AI 支出超过 1 万亿美元之后,实际成本节约远低于预期。44% 的大企业正在拿“还没兑现的节省”来为下一轮投资找理由。
Agent 时代的“词元通胀”
还有个更隐蔽的问题:Agent 执行任务时的消耗,跟人工调用完全不是一个量级。
你让 Agent“分析这个月的数据,做个报表”。它在后台的执行链可能触发七八次 API 调用——你以为是一次操作,实际上烧掉了几十次调用的 Token。深圳特区报的数据显示,Agent 单次任务的 Token 消耗是同等长度对话的 10 到 100 倍。高盛的测算更直观:即使推理成本每年降低 60%~70%,到 2030 年月 Token 消耗仍然会增长 24 倍。
成本下降的速度,远远赶不上消耗增长的速度。
多 Provider 下的账本混乱
另一个普遍痛点:团队通常同时用好几个 Provider——Claude、GPT、DeepSeek、通义千问、Kimi——每个都有自己的后台和计费口径。离职同事的 API Key 三个月了还在扣费,某个模型突然异常消耗却没人预警。
4 月份 LiteLLM(月安装 9500 万次)在 PyPI 被投毒,Braintrust 的 AWS 账户被攻破导致多家企业 API Key 暴露。这些事件的共同点:Key 散落在各处,没人轮换,也没人审计。
实践思路
1. 统一计费出口
不要让每个开发者直接对接某个 Provider,而是在调用链路上加一层袋里。所有模型请求走统一出口,消费数据在袋里层统一记录和聚合——不管底层用 Claude 还是 DeepSeek,上层看到的都是一份统一的账本。
2. 按项目/人/环境拆分明细
在袋里层对每次请求注入会话标识,按项目、人员、环境做消费归因。谁在什么时候用了哪个模型花了多少钱,不是等到月底对总数,而是实时可查。
3. 异常自动告警
某个会话 Token 突然飙升、某把 Key 深夜大量调用、某个模型失败率异常高——这些信号需要在异常发生时就能触发告警,而不是月底翻账单才发现。
Token 降到白菜价当然是好事,但成本治理的复杂度反而上去了。从“一个模型一把 Key”到“多 Provider 多 Agent”,在调用链路上加一层治理,会让账单从糊涂账变成清楚账。

