Token降价本质归于一度电的成本核算_AI热点日报

AI 进入精细化运营阶段过去一年间，主流模型厂商不约而同地掀起降价潮。DeepSeek、通义千问、智谱、MiniMax 等国产大模型，将 Token 价格拉至前所未有的低位。表面看这是各家争夺市场份额的肉搏战，但深入剖析会发现：每个 Token 背后，都串联着从电力、土地、机柜、制冷、网络、存储、

AI 进入精细化运营阶段

过去一年间，主流模型厂商不约而同地掀起降价潮。DeepSeek、通义千问、智谱、MiniMax 等国产大模型，将 Token 价格拉至前所未有的低位。表面看这是各家争夺市场份额的肉搏战，但深入剖析会发现：每个 Token 背后，都串联着从电力、土地、机柜、制冷、网络、存储、GPU 调度，直至企业实际应用的完整链路。

Token 降价的尽头，是一度电的账

先提炼一个核心判断。优刻得 CEO 季昕华在接受 InfoQ 采访时指出，当前企业老板最棘手的三大难题是：如何让员工真正用上 AI、用着用着发现成本太高怎么办、到底怎样才能提升效率。简言之，AI 并未被弃用，而是进入了精打细算的阶段。

Token 成本这件事，远非仅仅看 API 标价就能算清。它正在演变为一场贯穿“电力—算力—模型—应用—组织”的全链路系统工程。

优刻得当年远赴乌兰察布建设数据中心，初衷并非瞄准 AI。公司副总裁刘杰回忆，2017 年筹划该项目时，AI 尚未兴起。当时主要聚焦 CPU 业务，第一栋楼也按 CPU 方案规划，后来才逐步转向 GPU。最初构想很简单：将乌兰察布打造为服务北京的“前店后厂”——北京为前台，乌兰察布提供低成本、低时延的后台支撑。

谈及选址，也绝非拍脑袋决定。季昕华透露了一个有趣细节：当年苹果在国内选址数据中心时，认为优刻得技术实力不错，便邀请他们一起实地考察。团队跑遍了贵州、四川、重庆、青海、宁夏、甘肃，最终一路看到内蒙古，发现乌兰察布简直是为数据中心量身定制的。原因非常直接：电价低廉；苹果要求 100% 绿电，内蒙古具备这一条件；气候寒冷，PUE 容易优化；距离北京近，时延和人员往来都很便利。

这些条件在云计算时代已至关重要，到了 AI 时代更是命脉所在。因为 AI 最终会将所有成本穿透到电力层面。季昕华直言：Token 的终局就是电力。电价便宜，Token 自然便宜。内蒙古的优势，核心就在于此。

现场交流时，刘杰算了一笔账：一台某国外顶级服务器，功耗约 6.5 千瓦，通常配备 8 张 GPU 卡。一个千卡集群大约需要 125 台这类服务器。仅服务器本身，年耗电量就已相当惊人；再乘以 PUE 系数，才是数据中心实际承担的总用电量。如此计算，数据中心选址、电价、PUE、高功率机柜，每一个环节都直接决定 Token 成本。

过去 IDC 行业习惯谈论“柜子”，比拼机柜数量。但到了 AI 时代，“多少个柜子”已无法说明问题。优刻得青浦数据中心约 42 亩，设计容量约 5000 个机柜；乌兰察布园区约 212 亩，设计容量约 12000 个机柜。关键不在于数量，而在于机柜的功率密度。传统低功率机柜与高功率机柜完全是两回事。大模型训练和推理需要更高的功率密度，普通机柜根本容纳不了多台高功耗 GPU 服务器。单机柜供电能力、散热能力、网络布线、液冷能力，这些都在重新定义数据中心的价值。

现场交流透露，液冷单机柜能做到 35 千瓦，这背后需要专用的电路和散热系统改造。

如何切实降低 Token 成本？

这也解释了为何当下一些传统低功率数据中心开始空置，而高功率数据中心却供不应求。季昕华指出，国内部分低功率数据中心空闲率较高，但像优刻得这样的高功率数据中心，尚未建成便已有订单在等待。他判断，新建数据中心的前几栋楼，满载率会非常高，因为已有签约订单。

数据中心的成本竞争，正从“有没有楼”转向“能不能承载 AI”。

乌兰察布的优势不仅在于电价便宜。这里海拔高，年均温度低，制冷能耗天然较低。PUE 这个指标，简单说就是数据中心总用电中，真正用于服务器计算的比例越高，PUE 越低。气温低，制冷能耗下降，PUE 自然容易优化。

此外，乌兰察布的能源结构相对多元，风电、光电、煤电均有布局，供电更稳定。对于 AI 数据中心而言，电价固然重要，但稳定电力比什么都关键。GPU 集群最怕的不是价格稍高，而是中断和不稳定。训练任务一旦中断，损失的不仅是电费，还有时间、算力窗口和客户信任。

所以，Token 降本的第一层答案其实很朴实：选对地方，压缩电力成本，降低 PUE，建设高功率机柜。

但这只是起点。

季昕华在谈到降本时，给出了几个非常务实的思路。第一个方向，是使用国内模型。相比海外模型，DeepSeek 等国产模型在价格上优势明显，智谱、MiniMax 等厂商能力也在持续提升。对许多企业应用来说，并非所有任务都需要调用最贵的模型。一个 85 分的模型在特定任务上表现更优，但如果 80 分的模型也能满足需求，且成本相差很大，那么显然选择后者更明智。

第二个方向，是从技术上提高“每度电产生的 Token 数量”。这句话将 AI 成本拉回到了基础设施效率的核心。过去大家喜欢讨论每百万 Token 多少钱，但真正决定长期成本的，是每一度电最终能转化为多少有效 Token。GPU 利用率、推理框架、模型部署、网络通信、存储读写，这些都直接影响结果。

第三个方向，是选对数据中心的位置。像内蒙古这样电力和气候条件优越的地区，能在底层成本上形成优势。乌兰察布更适合训练，也能覆盖北方大部分推理需求；上海青浦则更适用于华东地区对时延敏感的业务，如金融、汽车，也适合部分推理。这其实就是“东数西算”的分工逻辑：不是所有算力都要离用户最近，也不是所有算力都适合放在西部，需要按任务类型拆分。

第四个方向，是模型组合。季昕华强调，不同模型能力边界各异，企业不能指望一个模型包打天下。有的模型擅长前端代码，有的适合后端，有的测试能力强，有的适合需求分析或写作。未来更合理的做法，是将一个任务拆解，让不同模型处理各自擅长的部分，甚至可以由平台自动为用户选择模型。这一点很关键——AI 降本不等于一味使用便宜模型，而是在“效果”与“成本”之间进行动态路由。一个复杂任务中，真正需要顶级模型处理的部分可能只有 20%，其他部分交给更便宜、更快的模型即可。这才是企业级 AI 应用真实的降本路径。

第五个方向，是 Prompt 管理和 Prompt Engineering。许多企业一边抱怨 AI 成本高，一边却没有建立内部使用规范。员工如何提问、调用什么模型、是否复用模板、是否重复调用、是否将简单问题丢给昂贵模型，这些都会直接影响 Token 消耗。季昕华提到，让员工按规则用好 Token，也是降本的重要手段。

这就从基础设施层面推进到了组织管理层面。企业真正的问题不是“有没有 AI”，而是“AI 花出去的钱到底产生了多少价值”。

优刻得内部每天都查看 AI 使用报告，包括多少员工用了 AI、花了多少钱、用在了哪些场景。Coding 是消耗大户，查询、PPT 等场景也在增长。但最大的难题，是如何衡量这些投入的产出。这恐怕是所有企业都绕不开的挑战。

AI 工具铺开后，会出现三类情况：第一，很多员工还在摸索阶段，效果不稳定；第二，有些调用并非出于公司业务，而是个人使用；第三，真正用于公司工作的部分，究竟提效多少，还需要评估。优刻得正在研发一个产品，帮助企业分析员工使用 AI 是否用于公司业务，使用效率如何。

Token 需求并非一时热潮

这其实是 Token 时代企业管理的新命题。SaaS 时代，企业购买软件通常按账号、席位、模块付费。员工越活跃，往往说明软件价值越高。但 AI 不同：用得越多，成本越高。如果没有治理体系，老板推动 AI 后很快就会陷入尴尬：觉得没提效，但账单却大幅上升。

因此，便宜 Token 的另一面，不是无限调用，而是 Token 治理。这也是为什么季昕华将“如何让老板评估 Token 的效益”视为当前最大挑战之一。

AI 进入企业，不只是技术升级，还会倒逼生产关系调整。未来组织中，高层更需要回答“做什么”和“为什么做”，AI 则更多解决“怎么做”，中间还需要懂业务、懂架构的人来驾驭 AI，避免偏离方向。

他甚至谈到，AI 时代的人才观也会随之改变。过去企业招聘更看重经验，但有了 AI 后，学习新技术的门槛降低了。主动性、好奇心、自我反思能力、业务理解，可能变得比单纯经验更重要。因为 AI 每天都在迭代，真正稀缺的不再只是“会不会写代码”，而是能否判断问题、拆解任务、驾驭工具，并将 AI 产出转化为业务成果。

这也解释了为什么 Token 需求不会只是一次热潮。季昕华判断，Token 增长是长期趋势。年初某些现象级智能体应用带动了普通用户快速体验 AI，但热潮退去后，Token 量仍在增长。原因很简单：AI 能力在提升，尤其是 Coding 能力让 AI 真正进入“干活”阶段；视频、图片模型让短剧、漫剧等内容生产释放出大量需求；广告营销、市场推广、财务、HR 等企业内部岗位开始使用 AI；此外，录音转会议纪要、智能眼镜、智能戒指等硬件也在持续消耗 Token。

这几个需求有一个共同特点：它们不是单次尝鲜，而是工作流、内容流和硬件入口的持续消耗。其中，Coding 是最明确的增长场景。AI 写代码能力提高后，企业内部研发效率和工作方式会随之改变。后端工程师可以借助 AI 快速写前端，测试和运维边界也被打通，非研发人员也能用 AI 完成部分过去无法独立完成的工作。

图像、视频、漫画、短剧则是另一类大户。生成式内容计算密集、调用频繁、结果需要反复调整，天然产生大量 Token 和算力需求。再往外看，AI 硬件将调用入口延伸到录音设备、眼镜、汽车、戒指等终端，一旦硬件入口铺开，算力需求会更加碎片化、常态化。这也解释了为什么高功率数据中心会持续供不应求。

AI 发展最大瓶颈：物理基础设施跟不上

季昕华将国内外的瓶颈做了区分：国内最大问题是缺卡，海外则是缺数据中心。国内 GPU 供应受限，所以先得找到卡；找到卡之后，还得有高功率数据中心来承载。海外许多区域算力基础设施远落后于中国，除美国之外，不少国家当前反而有大量存储需求，比如数字城市、视频监控数据存储等。

国内基础设施瓶颈主要有三个：卡的瓶颈、数据中心审批和统一管控的挑战，以及旧基础设施上的电力和水供应挑战。中国不缺电，但电力配套要跟上产业发展节奏。比特世界的需求可以指数级增长，但物理世界是原子世界，电网、水、机房、设备交付、施工周期都有现实约束。

这句话很适合作为观察 AI 基础设施的底层逻辑：数字需求跑得太快，物理供给跟不上。

在物理供给里，国产算力也是个绕不开的话题。季昕华认为，国产 GPU 这几年在国家支持和市场需求引导下，性能提升很快，已经到了“可用状态”，但整体性能与海外高端产品仍有差距。不过，美国限制反而推动国内大模型公司和硬件厂商加快适配，未来效率会越来越高。优刻得方面提到，客户对国产算力的明确需求，更多体现在希望国产算力与模型加速适配上。英伟达已经形成自成体系的生态，国产算力要真正崛起，不能只靠单卡参数，而要形成模型、框架、工具链和应用端的生态闭环。

这也意味着，国产算力降本不是简单替代英伟达，而是模型和硬件共同适配后的系统优化。

从这个角度看，AI 基础设施的瓶颈总是在移动。季昕华解释得很形象：Token 生产是由很多组件共同完成的。最开始可能觉得 GPU 不够，于是提升 GPU；GPU 提升后，发现内存成为瓶颈；内存做大后，又发现卡与卡之间的网络连接成为瓶颈，光通信、互联技术开始重要；网络解决后，CPU 调度又跟不上；再往后，不同机器之间、不同机房之间的连接又会成为新挑战。整个系统的工作，就是不断找到瓶颈、突破瓶颈，然后迎接下一个瓶颈。主要矛盾解决后，次要矛盾就会变成新的主要矛盾。

这其实是 AI 基础设施行业最真实的一面：它不是单点技术革命，而是连续的系统调优。

比如跨数据中心推理。一些算法正在尝试在不同数据中心间实现推理调度，这样能把分散的算力利用起来，但新的瓶颈会变成带宽和延迟。训练目前还不适合这样做，但推理有机会。又比如分布式推理，目前最大的瓶颈不在时延，而在算力资源不足。生图几秒返回、生视频几十秒返回，大多数用户可以接受。反而如果把算力分散到各地，可能导致资源浪费：某个城市节点使用率只有 70% 或 80%，空闲资源却无法被其他地方共享。

所以当前主流仍然是集中式。未来更可能在边缘侧做缓存，有点像 CDN，通过“以存代算”减少重复计算。例如多个用户问同一个天气问题，答案相同，就不必每次都重新推理，直接从本地缓存返回。但这套模式还没完全收敛。这说明，AI 推理并不会简单复制互联网时代的边缘计算路径。它既要考虑时延，也要考虑算力利用率。当前算力仍然稀缺，把资源集中起来，往往比过早分散更经济。

做中立的 Token 供应商

优刻得在这里找到的定位，是做一个中立的算力和模型服务平台。季昕华说，优刻得今天已经不只是传统意义上的云计算公司，而是扩展成一家数字化公司，云、大数据和算力是技术手段。面对 AI 时代，其目标是发挥中立性质，帮助大家更好地用好 AI，也帮助 AI 公司更好地发展。

中立性过去是优刻得面向游戏、电商等行业客户的标签。游戏公司可能不愿意用腾讯云，电商公司可能顾虑阿里云，因为有业务竞争。到了 AI 时代，这种中立性被重新放大。阿里有通义千问，腾讯有混元，字节有豆包。对创业型大模型公司来说，选择一家相对中立的第三方云厂商，更容易获得资源支持，也能减少潜在竞争顾虑。季昕华提到，优刻得在 Token 层面也可以保持中立，接入多个 Token 来源，为客户选最合适的。

从客户结构看，优刻得面临的算力需求主要来自几类：第一类是基础模型公司，比如智谱、MiniMax、DeepSeek 等，需要大量卡做训练和推理；第二类是行业模型公司，比如金融、证券等有自己数据的公司，需要在基础模型上训练行业模型；第三类是手机、汽车等智能终端；第四类是各种应用场景；第五类是科学计算。

这些客户未必都有能力自建大规模数据中心，也未必都能从巨头那里获得足够细致的资源和技术支持。优刻得的差异化在于，不只是提供机柜，也不只是卖云主机，而是试图提供从数据中心、高功率机柜、GPU 算力、模型部署、Token 计费到企业 AI 使用治理的一整套能力。

这条路并不轻松。AI 基础设施本质上是重资产。数据中心建设要土地、楼宇、机电、UPS、柴发、制冷、液冷和高功率机柜；GPU 和 AI 服务器价格仍在波动；客户希望成本下降，但上游设备并不便宜。现场交流提到，硬件价格上涨很快，但终端客户拿到的算力租赁价格并没有同步上涨，中间压力需要云厂商和算力服务商消化。

同时，数据中心标准也需要调整。季昕华提到，现有数据中心标准已经落后于 AI 行业发展。现在很多高等级标准要求双路供电、两路 UPS、两路柴发等冗余设计，但并不是所有 AI 产品都需要这么高标准。未来不同业务可能需要更精细化的数据中心标准，而不是所有负载都按最高标准建设。这也意味着，AI 基础设施的降本不只是“压价格”，还包括重新定义什么业务需要什么等级的基础设施。

比如训练任务对稳定性要求极高，但部分推理任务可能对冗余要求没那么高；金融和汽车等敏感业务适合放在青浦等靠近客户的区域，普通推理和训练任务则可以放在乌兰察布这种电力成本更优的区域。任务分层、资源分层、模型分层，都会成为未来 Token 降本的一部分。

所以，Token 价格战背后的真实战场，已经从模型 API 页面，转移到了电力、数据中心和算力系统深处。当企业真正开始把 AI 放进代码、营销、财务、HR、会议纪要、智能硬件和行业模型，Token 就不再是技术圈里的抽象单位，而会变成企业账本上的真实支出。而谁能把一度电更高比例地转成有效算力，把一张 GPU 跑出更多有效 Token，把不同模型组合成更低成本的工作流，把员工的 AI 使用变成可衡量的业务产出，谁才有机会在下一轮 AI 基础设施竞争中留下来。

Token 便宜的尽头，不只是模型降价。是电力，是算力，是工程能力，也是企业重新学会怎么用 AI。