先说几个关键趋势。曾经Token供应充足的公司,如今纷纷开始精打细算过日子。
最近一个极具代表性的信号:美国AI Agent公司Lindy,将其100%的托管Agent流量,从Claude全面迁移到了DeepSeek V4。原因简单直接——此举能节省数百万美元的推理成本,迁移后的流量成本直降约90%。
这并非个例。越来越多的美国开发者和中小型企业,正将目光转向中国大模型。理由同样明了:在大量日常任务场景中,这些模型“足够好用,且价格低廉”。据海外媒体报道,Siemens、Renault、Orange、ChapsVision等欧洲企业,也开始采用美国、中国、欧洲模型混合使用的策略。
回顾过去一年,众多企业鼓励员工“多用AI”,仿佛Token消耗得越多,就越能彰显自己是AI-first公司。但当账单真实地摆在面前时,全球公司似乎达成了共识,集体开始反思。核心逻辑只有一句话:该省则省,该花则花。
一场名为“小模型经济学”的潮流,正在悄然兴起。

Token铺张浪费的代价
所谓“小模型经济学”,说白了就是:别什么任务都请最昂贵的专家来处理。
过去企业接入AI,思路非常简单——默认调用最强模型。写代码用Claude,构建Agent用Claude,不论任务复杂与否,先上旗舰模型再说。但问题在于,这些前沿模型简直是Token消耗大户。每多读一段上下文,每多执行一轮Agent,账单上的数字就令人揪心。
于是企业开始反思:是不是每项工作,都非得请最贵的专家不可?结果发现,简单任务交给便宜模型,复杂任务再派给昂贵模型,效果并不差。这套节省成本的“妙招”,逐渐有了正式的称谓——小模型经济学。
这套Token经济学,并非凭空构想,而是被真实账单硬生生逼出来的。
Uber就是个典型案例。这家公司曾鼓励工程师大量使用AI编程工具,如Claude Code、Cursor等,被视为提升效率的法宝。结果呢?仅仅用了几个月,Uber就提前耗尽了全年的AI编程预算。Uber COO Andrew Macdonald后来公开质疑,表示很难将Claude Code的使用量与“多交付25%有用的消费者功能”直接关联。紧接着,公司就开始为员工设定Token限额:每人、每个工具,每月Token花费上限为1500美元,超出需特别审批。
亚马逊的故事则带点黑色幽默。为响应公司AI号召,员工自发创建了一个KiroRank排行榜,专门比拼谁消耗的Token更多。很快有人发现了漏洞——根本无需真正解决问题,只需派Agent去执行一堆毫无意义的任务,排名同样可以攀升。最终,高级副总裁Dave Treadwell不得不亲自喊话:“别为了用AI而用AI。”那个排行榜,也悄然下线了。
Meta内部也搞过类似活动,名字起得更夸张,直接叫“Claudeonomics”,连“经济学”都用上了,结果还是栽在了同一个坑里。
目前,大型企业都开始收紧Token用量。微软被曝大量取消了Claude Code的直接许可,转向GitHub Copilot CLI,而Copilot也从固定订阅转向了按量计费。Meta也由“Token最大化”策略转向了“Token最小化”。据外媒报道,Meta计划限制员工Token使用,原因很简单:内部AI使用成本,预计将达到数十亿美元级别。
这些变化清晰指向一点:企业开始意识到,Token的花费和有用的产出,并不成正比。盲目消耗Token的时代,已经结束了。
小模型经济学成为一门新生意
光靠企业自己抠预算,其实还不够。真正让“小模型经济学”站稳脚跟的,是供给侧也发生了变化——便宜模型,开始变得更好用了。
DeepSeek V4系列就是最直接的例子。同样的任务,DeepSeek V4 Flash的价格,比Anthropic的模型低了约20到50倍。在Ramp的企业软件采购趋势榜上,DeepSeek一度冲上首位。Vercel的AI网关数据更惊人:生产流量中,DeepSeek的Token份额一个月内从不足1%飙升到了17%。连微软都在认真考虑,用DeepSeek V4的微调版,去替代Copilot Cowork里原本运行的Anthropic、OpenAI模型。
这直接催生出一套行业里心照不宣的分层逻辑:资金充裕或任务足够复杂时,继续使用OpenAI、Anthropic的旗舰模型;真要追求性价比,就转向DeepSeek、Kimi、智谱GLM、MiniMax这一档“够用且便宜”的模型。两条价格带并行,按需分配。开源项目ClawRouter的数据显示,采用这种分层组合,平均成本能从每百万Token 25美元,直接压低到约2美元。
在这套逻辑下,像OpenRouter这样的模型路由公司,突然变得价值凸显。OpenRouter自身不训练模型,它扮演的是模型调度台的角色——帮助企业和开发者在OpenAI、Anthropic、Google、DeepSeek、Mistral等数百个模型之间,根据价格、延迟、稳定性、上下文长度等因素进行调度。据外媒报道,OpenRouter今年刚完成1.13亿美元B轮融资,估值约13亿美元;周处理Token量增长了5倍,达到25万亿,拥有800万用户。
Vercel的数据也显示,大规模AI应用早已不再是一个模型打天下。在Vercel AI Gateway上,月请求量超过1000万次的团队,平均会同时使用35个模型。有的模型负责意图识别,有的负责检索,有的负责摘要,有的负责复杂推理——AI的使用,变得像一条分工明确的流水线。
像LiteLLM、Helicone这类工具,更是将模型路由做成了财务系统:按团队、项目、模型设置预算,监控每个接口消耗了多少Token,一旦哪家Provider涨价或变慢,就立即切换流量。与此同时,云厂商也开始跟进。AWS Bedrock的Intelligent Prompt Routing,已经能在同一模型家族内部自动分配请求。AWS内部测试显示,在Claude Haiku和Sonnet之间做路由,可以在保持质量的同时,节省48%到56%的成本。
在这样的产业变革下,帮企业节省成本的“小模型经济学”,正在成为一门实实在在的新生意。
企业如何落地实施?
道理都明白,但真正落地时,企业面对的都是非常具体的技术问题:这次请求,究竟该分配给便宜模型,还是贵模型?
这个过程,绝不是简单地把Claude换成DeepSeek了事,而是要把一个AI任务,拆解成许多个小步骤。以客服Agent为例,用户问“我的订单到哪了”,模型之间的工作流大致如下:先让便宜模型判断意图——是查物流,不是投诉,也不是退货;再用便宜模型抽取出订单号,直接调用物流API;最后,只需要一个中等模型,将结果润色成一句流畅的话。用户看到的还是那句“您的包裹已到达杭州转运中心”,但企业已经省下了一大段昂贵的推理消耗。
AI编程同样如此。一个coding agent,不需要每一步都使用最贵模型。读取目录、总结文件结构、生成简单测试、编写PR摘要,这些可以交给便宜模型;而大型重构计划、跨文件依赖分析、安全敏感代码审查,再交给Claude、GPT这类强模型。
从技术实现上看,企业要实现模型路由,通常有几种做法。最简单的是规则路由:比如订单查询走小模型加API,法律问题直接走强模型加人工审核。更常见的是级联路由:先让便宜模型回答,格式校验、事实校验、置信度过不了关,再升级给贵模型。再往后,就是学习型路由:系统根据提示词难度、历史表现、预算和延迟,自动判断该用哪个模型。
近两年,这套工程化方法,已经从工程师的经验之谈,变成了正式的研究课题。例如,ParetoBandit研究的是动态环境里的预算路由——模型价格在变化,模型质量会悄悄退化,新模型会不断加入,系统如何一边控制预算,一边在线调整路由?Budget-Aware Agentic Routing则专门研究Agent场景:长任务里每一步都调用强模型,经济上不可持续,所以要在每一步决定,是该省钱,还是该调用强模型?
当企业去掉了“Token管够”的幻觉,转向更加务实的“小模型经济学”,这恰恰是企业继续扩大AI应用规模的前提。省钱,不是为了少用,而是为了能更可持续地多用。
