大模型领域Token管够的时代已经正式结束了

时间：2026-07-01 12:30

企业正从“Token管够”转向“小模型经济学”，通过分层使用DeepSeek等低成本模型和智能路由，大幅削减推理成本。Uber、Meta等已收紧Token限额，模型路由工具催生新生意，使AI使用更可持续，助力行业降本增效。此举使AI应用更经济，成为行业新趋势。

先说几个关键趋势。曾经Token供应充足的公司，如今纷纷开始精打细算过日子。

最近一个极具代表性的信号：美国AI Agent公司Lindy，将其100%的托管Agent流量，从Claude全面迁移到了DeepSeek V4。原因简单直接——此举能节省数百万美元的推理成本，迁移后的流量成本直降约90%。

这并非个例。越来越多的美国开发者和中小型企业，正将目光转向中国大模型。理由同样明了：在大量日常任务场景中，这些模型“足够好用，且价格低廉”。据海外媒体报道，Siemens、Renault、Orange、ChapsVision等欧洲企业，也开始采用美国、中国、欧洲模型混合使用的策略。

回顾过去一年，众多企业鼓励员工“多用AI”，仿佛Token消耗得越多，就越能彰显自己是AI-first公司。但当账单真实地摆在面前时，全球公司似乎达成了共识，集体开始反思。核心逻辑只有一句话：该省则省，该花则花。

一场名为“小模型经济学”的潮流，正在悄然兴起。

Token铺张浪费的代价

所谓“小模型经济学”，说白了就是：别什么任务都请最昂贵的专家来处理。

过去企业接入AI，思路非常简单——默认调用最强模型。写代码用Claude，构建Agent用Claude，不论任务复杂与否，先上旗舰模型再说。但问题在于，这些前沿模型简直是Token消耗大户。每多读一段上下文，每多执行一轮Agent，账单上的数字就令人揪心。

于是企业开始反思：是不是每项工作，都非得请最贵的专家不可？结果发现，简单任务交给便宜模型，复杂任务再派给昂贵模型，效果并不差。这套节省成本的“妙招”，逐渐有了正式的称谓——小模型经济学。

这套Token经济学，并非凭空构想，而是被真实账单硬生生逼出来的。

Uber就是个典型案例。这家公司曾鼓励工程师大量使用AI编程工具，如Claude Code、Cursor等，被视为提升效率的法宝。结果呢？仅仅用了几个月，Uber就提前耗尽了全年的AI编程预算。Uber COO Andrew Macdonald后来公开质疑，表示很难将Claude Code的使用量与“多交付25%有用的消费者功能”直接关联。紧接着，公司就开始为员工设定Token限额：每人、每个工具，每月Token花费上限为1500美元，超出需特别审批。

亚马逊的故事则带点黑色幽默。为响应公司AI号召，员工自发创建了一个KiroRank排行榜，专门比拼谁消耗的Token更多。很快有人发现了漏洞——根本无需真正解决问题，只需派Agent去执行一堆毫无意义的任务，排名同样可以攀升。最终，高级副总裁Dave Treadwell不得不亲自喊话：“别为了用AI而用AI。”那个排行榜，也悄然下线了。

Meta内部也搞过类似活动，名字起得更夸张，直接叫“Claudeonomics”，连“经济学”都用上了，结果还是栽在了同一个坑里。

目前，大型企业都开始收紧Token用量。微软被曝大量取消了Claude Code的直接许可，转向GitHub Copilot CLI，而Copilot也从固定订阅转向了按量计费。Meta也由“Token最大化”策略转向了“Token最小化”。据外媒报道，Meta计划限制员工Token使用，原因很简单：内部AI使用成本，预计将达到数十亿美元级别。

这些变化清晰指向一点：企业开始意识到，Token的花费和有用的产出，并不成正比。盲目消耗Token的时代，已经结束了。

小模型经济学成为一门新生意

光靠企业自己抠预算，其实还不够。真正让“小模型经济学”站稳脚跟的，是供给侧也发生了变化——便宜模型，开始变得更好用了。

DeepSeek V4系列就是最直接的例子。同样的任务，DeepSeek V4 Flash的价格，比Anthropic的模型低了约20到50倍。在Ramp的企业软件采购趋势榜上，DeepSeek一度冲上首位。Vercel的AI网关数据更惊人：生产流量中，DeepSeek的Token份额一个月内从不足1%飙升到了17%。连微软都在认真考虑，用DeepSeek V4的微调版，去替代Copilot Cowork里原本运行的Anthropic、OpenAI模型。

这直接催生出一套行业里心照不宣的分层逻辑：资金充裕或任务足够复杂时，继续使用OpenAI、Anthropic的旗舰模型；真要追求性价比，就转向DeepSeek、Kimi、智谱GLM、MiniMax这一档“够用且便宜”的模型。两条价格带并行，按需分配。开源项目ClawRouter的数据显示，采用这种分层组合，平均成本能从每百万Token 25美元，直接压低到约2美元。

在这套逻辑下，像OpenRouter这样的模型路由公司，突然变得价值凸显。OpenRouter自身不训练模型，它扮演的是模型调度台的角色——帮助企业和开发者在OpenAI、Anthropic、Google、DeepSeek、Mistral等数百个模型之间，根据价格、延迟、稳定性、上下文长度等因素进行调度。据外媒报道，OpenRouter今年刚完成1.13亿美元B轮融资，估值约13亿美元；周处理Token量增长了5倍，达到25万亿，拥有800万用户。

Vercel的数据也显示，大规模AI应用早已不再是一个模型打天下。在Vercel AI Gateway上，月请求量超过1000万次的团队，平均会同时使用35个模型。有的模型负责意图识别，有的负责检索，有的负责摘要，有的负责复杂推理——AI的使用，变得像一条分工明确的流水线。

像LiteLLM、Helicone这类工具，更是将模型路由做成了财务系统：按团队、项目、模型设置预算，监控每个接口消耗了多少Token，一旦哪家Provider涨价或变慢，就立即切换流量。与此同时，云厂商也开始跟进。AWS Bedrock的Intelligent Prompt Routing，已经能在同一模型家族内部自动分配请求。AWS内部测试显示，在Claude Haiku和Sonnet之间做路由，可以在保持质量的同时，节省48%到56%的成本。

在这样的产业变革下，帮企业节省成本的“小模型经济学”，正在成为一门实实在在的新生意。

企业如何落地实施？

道理都明白，但真正落地时，企业面对的都是非常具体的技术问题：这次请求，究竟该分配给便宜模型，还是贵模型？

这个过程，绝不是简单地把Claude换成DeepSeek了事，而是要把一个AI任务，拆解成许多个小步骤。以客服Agent为例，用户问“我的订单到哪了”，模型之间的工作流大致如下：先让便宜模型判断意图——是查物流，不是投诉，也不是退货；再用便宜模型抽取出订单号，直接调用物流API；最后，只需要一个中等模型，将结果润色成一句流畅的话。用户看到的还是那句“您的包裹已到达杭州转运中心”，但企业已经省下了一大段昂贵的推理消耗。

AI编程同样如此。一个coding agent，不需要每一步都使用最贵模型。读取目录、总结文件结构、生成简单测试、编写PR摘要，这些可以交给便宜模型；而大型重构计划、跨文件依赖分析、安全敏感代码审查，再交给Claude、GPT这类强模型。

从技术实现上看，企业要实现模型路由，通常有几种做法。最简单的是规则路由：比如订单查询走小模型加API，法律问题直接走强模型加人工审核。更常见的是级联路由：先让便宜模型回答，格式校验、事实校验、置信度过不了关，再升级给贵模型。再往后，就是学习型路由：系统根据提示词难度、历史表现、预算和延迟，自动判断该用哪个模型。

近两年，这套工程化方法，已经从工程师的经验之谈，变成了正式的研究课题。例如，ParetoBandit研究的是动态环境里的预算路由——模型价格在变化，模型质量会悄悄退化，新模型会不断加入，系统如何一边控制预算，一边在线调整路由？Budget-Aware Agentic Routing则专门研究Agent场景：长任务里每一步都调用强模型，经济上不可持续，所以要在每一步决定，是该省钱，还是该调用强模型？

当企业去掉了“Token管够”的幻觉，转向更加务实的“小模型经济学”，这恰恰是企业继续扩大AI应用规模的前提。省钱，不是为了少用，而是为了能更可持续地多用。

来源：https://36kr.com/p/3875453918329473

其他

上一篇英国监管要求苹果放宽App Store支付与NFC限制 下一篇Redmi K90至尊版首销2799元骁龙8E风冷散热

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。