游乐游手机版
首页/AI热点日报/热点详情

Token降价本质归于一度电的成本核算

类型:热点整理2026-07-01
AI 进入精细化运营阶段 过去一年间,主流模型厂商不约而同地掀起降价潮。DeepSeek、通义千问、智谱、MiniMax 等国产大模型,将 Token 价格拉至前所未有的低位。表面看这是各家争夺市场份额的肉搏战,但深入剖析会发现:每个 Token 背后,都串联着从电力、土地、机柜、制冷、网络、存储、

AI 进入精细化运营阶段

过去一年间,主流模型厂商不约而同地掀起降价潮。DeepSeek、通义千问、智谱、MiniMax 等国产大模型,将 Token 价格拉至前所未有的低位。表面看这是各家争夺市场份额的肉搏战,但深入剖析会发现:每个 Token 背后,都串联着从电力、土地、机柜、制冷、网络、存储、GPU 调度,直至企业实际应用的完整链路。

Token 降价的尽头,是一度电的账

先提炼一个核心判断。优刻得 CEO 季昕华在接受 InfoQ 采访时指出,当前企业老板最棘手的三大难题是:如何让员工真正用上 AI、用着用着发现成本太高怎么办、到底怎样才能提升效率。简言之,AI 并未被弃用,而是进入了精打细算的阶段。

Token 成本这件事,远非仅仅看 API 标价就能算清。它正在演变为一场贯穿“电力—算力—模型—应用—组织”的全链路系统工程。

优刻得当年远赴乌兰察布建设数据中心,初衷并非瞄准 AI。公司副总裁刘杰回忆,2017 年筹划该项目时,AI 尚未兴起。当时主要聚焦 CPU 业务,第一栋楼也按 CPU 方案规划,后来才逐步转向 GPU。最初构想很简单:将乌兰察布打造为服务北京的“前店后厂”——北京为前台,乌兰察布提供低成本、低时延的后台支撑。

谈及选址,也绝非拍脑袋决定。季昕华透露了一个有趣细节:当年苹果在国内选址数据中心时,认为优刻得技术实力不错,便邀请他们一起实地考察。团队跑遍了贵州、四川、重庆、青海、宁夏、甘肃,最终一路看到内蒙古,发现乌兰察布简直是为数据中心量身定制的。原因非常直接:电价低廉;苹果要求 100% 绿电,内蒙古具备这一条件;气候寒冷,PUE 容易优化;距离北京近,时延和人员往来都很便利。

这些条件在云计算时代已至关重要,到了 AI 时代更是命脉所在。因为 AI 最终会将所有成本穿透到电力层面。季昕华直言:Token 的终局就是电力。电价便宜,Token 自然便宜。内蒙古的优势,核心就在于此。

现场交流时,刘杰算了一笔账:一台某国外顶级服务器,功耗约 6.5 千瓦,通常配备 8 张 GPU 卡。一个千卡集群大约需要 125 台这类服务器。仅服务器本身,年耗电量就已相当惊人;再乘以 PUE 系数,才是数据中心实际承担的总用电量。如此计算,数据中心选址、电价、PUE、高功率机柜,每一个环节都直接决定 Token 成本。

过去 IDC 行业习惯谈论“柜子”,比拼机柜数量。但到了 AI 时代,“多少个柜子”已无法说明问题。优刻得青浦数据中心约 42 亩,设计容量约 5000 个机柜;乌兰察布园区约 212 亩,设计容量约 12000 个机柜。关键不在于数量,而在于机柜的功率密度。传统低功率机柜与高功率机柜完全是两回事。大模型训练和推理需要更高的功率密度,普通机柜根本容纳不了多台高功耗 GPU 服务器。单机柜供电能力、散热能力、网络布线、液冷能力,这些都在重新定义数据中心的价值。

现场交流透露,液冷单机柜能做到 35 千瓦,这背后需要专用的电路和散热系统改造。

如何切实降低 Token 成本?

这也解释了为何当下一些传统低功率数据中心开始空置,而高功率数据中心却供不应求。季昕华指出,国内部分低功率数据中心空闲率较高,但像优刻得这样的高功率数据中心,尚未建成便已有订单在等待。他判断,新建数据中心的前几栋楼,满载率会非常高,因为已有签约订单。

数据中心的成本竞争,正从“有没有楼”转向“能不能承载 AI”。

乌兰察布的优势不仅在于电价便宜。这里海拔高,年均温度低,制冷能耗天然较低。PUE 这个指标,简单说就是数据中心总用电中,真正用于服务器计算的比例越高,PUE 越低。气温低,制冷能耗下降,PUE 自然容易优化。

此外,乌兰察布的能源结构相对多元,风电、光电、煤电均有布局,供电更稳定。对于 AI 数据中心而言,电价固然重要,但稳定电力比什么都关键。GPU 集群最怕的不是价格稍高,而是中断和不稳定。训练任务一旦中断,损失的不仅是电费,还有时间、算力窗口和客户信任。

所以,Token 降本的第一层答案其实很朴实:选对地方,压缩电力成本,降低 PUE,建设高功率机柜。

但这只是起点。

季昕华在谈到降本时,给出了几个非常务实的思路。第一个方向,是使用国内模型。相比海外模型,DeepSeek 等国产模型在价格上优势明显,智谱、MiniMax 等厂商能力也在持续提升。对许多企业应用来说,并非所有任务都需要调用最贵的模型。一个 85 分的模型在特定任务上表现更优,但如果 80 分的模型也能满足需求,且成本相差很大,那么显然选择后者更明智。

第二个方向,是从技术上提高“每度电产生的 Token 数量”。这句话将 AI 成本拉回到了基础设施效率的核心。过去大家喜欢讨论每百万 Token 多少钱,但真正决定长期成本的,是每一度电最终能转化为多少有效 Token。GPU 利用率、推理框架、模型部署、网络通信、存储读写,这些都直接影响结果。

第三个方向,是选对数据中心的位置。像内蒙古这样电力和气候条件优越的地区,能在底层成本上形成优势。乌兰察布更适合训练,也能覆盖北方大部分推理需求;上海青浦则更适用于华东地区对时延敏感的业务,如金融、汽车,也适合部分推理。这其实就是“东数西算”的分工逻辑:不是所有算力都要离用户最近,也不是所有算力都适合放在西部,需要按任务类型拆分。

第四个方向,是模型组合。季昕华强调,不同模型能力边界各异,企业不能指望一个模型包打天下。有的模型擅长前端代码,有的适合后端,有的测试能力强,有的适合需求分析或写作。未来更合理的做法,是将一个任务拆解,让不同模型处理各自擅长的部分,甚至可以由平台自动为用户选择模型。这一点很关键——AI 降本不等于一味使用便宜模型,而是在“效果”与“成本”之间进行动态路由。一个复杂任务中,真正需要顶级模型处理的部分可能只有 20%,其他部分交给更便宜、更快的模型即可。这才是企业级 AI 应用真实的降本路径。

第五个方向,是 Prompt 管理和 Prompt Engineering。许多企业一边抱怨 AI 成本高,一边却没有建立内部使用规范。员工如何提问、调用什么模型、是否复用模板、是否重复调用、是否将简单问题丢给昂贵模型,这些都会直接影响 Token 消耗。季昕华提到,让员工按规则用好 Token,也是降本的重要手段。

这就从基础设施层面推进到了组织管理层面。企业真正的问题不是“有没有 AI”,而是“AI 花出去的钱到底产生了多少价值”。

优刻得内部每天都查看 AI 使用报告,包括多少员工用了 AI、花了多少钱、用在了哪些场景。Coding 是消耗大户,查询、PPT 等场景也在增长。但最大的难题,是如何衡量这些投入的产出。这恐怕是所有企业都绕不开的挑战。

AI 工具铺开后,会出现三类情况:第一,很多员工还在摸索阶段,效果不稳定;第二,有些调用并非出于公司业务,而是个人使用;第三,真正用于公司工作的部分,究竟提效多少,还需要评估。优刻得正在研发一个产品,帮助企业分析员工使用 AI 是否用于公司业务,使用效率如何。

Token 需求并非一时热潮

这其实是 Token 时代企业管理的新命题。SaaS 时代,企业购买软件通常按账号、席位、模块付费。员工越活跃,往往说明软件价值越高。但 AI 不同:用得越多,成本越高。如果没有治理体系,老板推动 AI 后很快就会陷入尴尬:觉得没提效,但账单却大幅上升。

因此,便宜 Token 的另一面,不是无限调用,而是 Token 治理。这也是为什么季昕华将“如何让老板评估 Token 的效益”视为当前最大挑战之一。

AI 进入企业,不只是技术升级,还会倒逼生产关系调整。未来组织中,高层更需要回答“做什么”和“为什么做”,AI 则更多解决“怎么做”,中间还需要懂业务、懂架构的人来驾驭 AI,避免偏离方向。

他甚至谈到,AI 时代的人才观也会随之改变。过去企业招聘更看重经验,但有了 AI 后,学习新技术的门槛降低了。主动性、好奇心、自我反思能力、业务理解,可能变得比单纯经验更重要。因为 AI 每天都在迭代,真正稀缺的不再只是“会不会写代码”,而是能否判断问题、拆解任务、驾驭工具,并将 AI 产出转化为业务成果。

这也解释了为什么 Token 需求不会只是一次热潮。季昕华判断,Token 增长是长期趋势。年初某些现象级智能体应用带动了普通用户快速体验 AI,但热潮退去后,Token 量仍在增长。原因很简单:AI 能力在提升,尤其是 Coding 能力让 AI 真正进入“干活”阶段;视频、图片模型让短剧、漫剧等内容生产释放出大量需求;广告营销、市场推广、财务、HR 等企业内部岗位开始使用 AI;此外,录音转会议纪要、智能眼镜、智能戒指等硬件也在持续消耗 Token。

这几个需求有一个共同特点:它们不是单次尝鲜,而是工作流、内容流和硬件入口的持续消耗。其中,Coding 是最明确的增长场景。AI 写代码能力提高后,企业内部研发效率和工作方式会随之改变。后端工程师可以借助 AI 快速写前端,测试和运维边界也被打通,非研发人员也能用 AI 完成部分过去无法独立完成的工作。

图像、视频、漫画、短剧则是另一类大户。生成式内容计算密集、调用频繁、结果需要反复调整,天然产生大量 Token 和算力需求。再往外看,AI 硬件将调用入口延伸到录音设备、眼镜、汽车、戒指等终端,一旦硬件入口铺开,算力需求会更加碎片化、常态化。这也解释了为什么高功率数据中心会持续供不应求。

AI 发展最大瓶颈:物理基础设施跟不上

季昕华将国内外的瓶颈做了区分:国内最大问题是缺卡,海外则是缺数据中心。国内 GPU 供应受限,所以先得找到卡;找到卡之后,还得有高功率数据中心来承载。海外许多区域算力基础设施远落后于中国,除美国之外,不少国家当前反而有大量存储需求,比如数字城市、视频监控数据存储等。

国内基础设施瓶颈主要有三个:卡的瓶颈、数据中心审批和统一管控的挑战,以及旧基础设施上的电力和水供应挑战。中国不缺电,但电力配套要跟上产业发展节奏。比特世界的需求可以指数级增长,但物理世界是原子世界,电网、水、机房、设备交付、施工周期都有现实约束。

这句话很适合作为观察 AI 基础设施的底层逻辑:数字需求跑得太快,物理供给跟不上。

在物理供给里,国产算力也是个绕不开的话题。季昕华认为,国产 GPU 这几年在国家支持和市场需求引导下,性能提升很快,已经到了“可用状态”,但整体性能与海外高端产品仍有差距。不过,美国限制反而推动国内大模型公司和硬件厂商加快适配,未来效率会越来越高。优刻得方面提到,客户对国产算力的明确需求,更多体现在希望国产算力与模型加速适配上。英伟达已经形成自成体系的生态,国产算力要真正崛起,不能只靠单卡参数,而要形成模型、框架、工具链和应用端的生态闭环。

这也意味着,国产算力降本不是简单替代英伟达,而是模型和硬件共同适配后的系统优化。

从这个角度看,AI 基础设施的瓶颈总是在移动。季昕华解释得很形象:Token 生产是由很多组件共同完成的。最开始可能觉得 GPU 不够,于是提升 GPU;GPU 提升后,发现内存成为瓶颈;内存做大后,又发现卡与卡之间的网络连接成为瓶颈,光通信、互联技术开始重要;网络解决后,CPU 调度又跟不上;再往后,不同机器之间、不同机房之间的连接又会成为新挑战。整个系统的工作,就是不断找到瓶颈、突破瓶颈,然后迎接下一个瓶颈。主要矛盾解决后,次要矛盾就会变成新的主要矛盾。

这其实是 AI 基础设施行业最真实的一面:它不是单点技术革命,而是连续的系统调优。

比如跨数据中心推理。一些算法正在尝试在不同数据中心间实现推理调度,这样能把分散的算力利用起来,但新的瓶颈会变成带宽和延迟。训练目前还不适合这样做,但推理有机会。又比如分布式推理,目前最大的瓶颈不在时延,而在算力资源不足。生图几秒返回、生视频几十秒返回,大多数用户可以接受。反而如果把算力分散到各地,可能导致资源浪费:某个城市节点使用率只有 70% 或 80%,空闲资源却无法被其他地方共享。

所以当前主流仍然是集中式。未来更可能在边缘侧做缓存,有点像 CDN,通过“以存代算”减少重复计算。例如多个用户问同一个天气问题,答案相同,就不必每次都重新推理,直接从本地缓存返回。但这套模式还没完全收敛。这说明,AI 推理并不会简单复制互联网时代的边缘计算路径。它既要考虑时延,也要考虑算力利用率。当前算力仍然稀缺,把资源集中起来,往往比过早分散更经济。

做中立的 Token 供应商

优刻得在这里找到的定位,是做一个中立的算力和模型服务平台。季昕华说,优刻得今天已经不只是传统意义上的云计算公司,而是扩展成一家数字化公司,云、大数据和算力是技术手段。面对 AI 时代,其目标是发挥中立性质,帮助大家更好地用好 AI,也帮助 AI 公司更好地发展。

中立性过去是优刻得面向游戏、电商等行业客户的标签。游戏公司可能不愿意用腾讯云,电商公司可能顾虑阿里云,因为有业务竞争。到了 AI 时代,这种中立性被重新放大。阿里有通义千问,腾讯有混元,字节有豆包。对创业型大模型公司来说,选择一家相对中立的第三方云厂商,更容易获得资源支持,也能减少潜在竞争顾虑。季昕华提到,优刻得在 Token 层面也可以保持中立,接入多个 Token 来源,为客户选最合适的。

从客户结构看,优刻得面临的算力需求主要来自几类:第一类是基础模型公司,比如智谱、MiniMax、DeepSeek 等,需要大量卡做训练和推理;第二类是行业模型公司,比如金融、证券等有自己数据的公司,需要在基础模型上训练行业模型;第三类是手机、汽车等智能终端;第四类是各种应用场景;第五类是科学计算。

这些客户未必都有能力自建大规模数据中心,也未必都能从巨头那里获得足够细致的资源和技术支持。优刻得的差异化在于,不只是提供机柜,也不只是卖云主机,而是试图提供从数据中心、高功率机柜、GPU 算力、模型部署、Token 计费到企业 AI 使用治理的一整套能力。

这条路并不轻松。AI 基础设施本质上是重资产。数据中心建设要土地、楼宇、机电、UPS、柴发、制冷、液冷和高功率机柜;GPU 和 AI 服务器价格仍在波动;客户希望成本下降,但上游设备并不便宜。现场交流提到,硬件价格上涨很快,但终端客户拿到的算力租赁价格并没有同步上涨,中间压力需要云厂商和算力服务商消化。

同时,数据中心标准也需要调整。季昕华提到,现有数据中心标准已经落后于 AI 行业发展。现在很多高等级标准要求双路供电、两路 UPS、两路柴发等冗余设计,但并不是所有 AI 产品都需要这么高标准。未来不同业务可能需要更精细化的数据中心标准,而不是所有负载都按最高标准建设。这也意味着,AI 基础设施的降本不只是“压价格”,还包括重新定义什么业务需要什么等级的基础设施。

比如训练任务对稳定性要求极高,但部分推理任务可能对冗余要求没那么高;金融和汽车等敏感业务适合放在青浦等靠近客户的区域,普通推理和训练任务则可以放在乌兰察布这种电力成本更优的区域。任务分层、资源分层、模型分层,都会成为未来 Token 降本的一部分。

所以,Token 价格战背后的真实战场,已经从模型 API 页面,转移到了电力、数据中心和算力系统深处。当企业真正开始把 AI 放进代码、营销、财务、HR、会议纪要、智能硬件和行业模型,Token 就不再是技术圈里的抽象单位,而会变成企业账本上的真实支出。而谁能把一度电更高比例地转成有效算力,把一张 GPU 跑出更多有效 Token,把不同模型组合成更低成本的工作流,把员工的 AI 使用变成可衡量的业务产出,谁才有机会在下一轮 AI 基础设施竞争中留下来。

Token 便宜的尽头,不只是模型降价。是电力,是算力,是工程能力,也是企业重新学会怎么用 AI。

来源:https://36kr.com/p/3875087594607880

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。