英伟达揭示AI成本真相:为何每Token成本才是关键指标
传统数据中心的核心任务,曾是数据的存储、检索与处理。然而,进入生成式AI与袋里式AI时代,这些设施的定位已悄然转变——它们正演变为一座座“AI Token工厂”。当AI推理成为核心工作负载,其核心产出便不再是原始数据,而是以Token为载体的智能本身。
这一根本性的转变,要求我们对AI基础设施的经济效益评估方式,包括总体拥有成本(TCO),进行同步调整。遗憾的是,当前许多企业在评估时,目光仍停留在芯片的峰值规格、单纯的计算成本,或是每美元能买到的理论算力(即每美元FLOPS)上。
这里存在一个关键区别,我们不妨厘清一下:
算力成本,是企业为AI基础设施支付的费用,无论是租用云服务还是自建部署。
每美元FLOPS,衡量的是每投入一美元所换取的原始计算能力,但这股“蛮力”并不直接等同于现实中可用的Token产出。
每Token成本,则是指企业生成并交付每一个Token所付出的综合成本,通常以每百万Token的成本来计算。
前两者仅仅是“投入”指标。但当你的业务核心是围绕“产出”运转时,只盯着投入做优化,本质上是一种方向性的错配。真正决定企业能否规模化盈利的关键,恰恰是每Token成本。它是唯一能直接、综合反映硬件性能、软件优化、生态系统支持以及实际利用率的TCO指标。而目前,NVIDIA在这一核心指标上实现了行业领先的低成本。
什么在驱动每Token成本下降?
要理解如何优化每Token成本,我们得先看看它的计算公式:“每百万Token成本”是如何得出的。
在这个公式里,很多企业评估基础设施时,只把注意力放在了分子——即每GPU每小时的成本上。对于云部署,这对应着付给云厂商的小时费率;对于本地部署,则是摊销自有设施后得出的等效小时成本。
然而,降低每Token成本的真正钥匙,藏在分母里:最大化实际交付的Token产出。
这个分母背后,其实蕴含着两层商业逻辑:
其一,最小化每Token成本:当Token产出增加,代入公式后自然会拉低单位成本,从而为每一次AI交互服务挤出更多利润空间。
其二,最大化收入潜力:每秒能交付更多Token,也意味着每兆瓦电力能产出更多智能。这直接提升了AI服务的供给能力,使得在相同的基础设施投入下,AI驱动的产品与服务有望创造更高的收入。
所以说,如果只盯着分子看,就会完全忽略决定分母的那些复杂因素。我们可以把它想象成一座“推理冰山”:分子是水面之上显而易见、易于横向比较的部分;而真正决定实际Token产出的关键,都隐藏在水面之下。对AI基础设施的准确评估,必须从探究这片水下世界开始。
水面之上的问题(表层比较):
- 每GPU小时的成本是多少?
- 峰值PetaFLOPS性能和高带宽内存容量有多大?
- 每美元能买到多少FLOPS?
水面之下的分析(深度成本关键):
- 每百万Token的成本是多少?特别是针对当前部署最广泛的大规模混合专家(MoE)推理模型,这个成本是多少?
- 每兆瓦电力可交付多少Token?这对本地部署尤其关键,因为在土地、电力和基础设施上的资本投入巨大,最大化每单位能源产生的智能产出至关重要。
- 纵向扩展(scale-up)互连能否支撑MoE模型所需的“all-to-all”通信模式?
- 是否支持FP4精度?推理软件栈能否在保持高模型质量的同时充分利用FP4?
- 推理运行时是否支持投机解码或多Token预测,以提升用户体验的响应速度?
- 服务层是否支持解耦服务、KV缓存感知路由、KV缓存卸载等高级优化?
- 平台能否满足袋里式AI工作负载的独特需求,包括超低延迟、高吞吐以及处理长输入序列?
- 平台是否支持从模型训练、后训练优化到大规模推理的完整生命周期,并覆盖所有主流模型架构?这直接关系到基础设施的可互换性和总体利用率。
这里面的每一项——算法、硬件、软件优化——都必须切实有效且能够相互集成。否则,分母就无法最大化。一块看似“更便宜”的GPU,如果其每秒Token产出显著更低,最终反而会导致更高的每Token成本。只有能够实现全栈深度优化、确保各项优化相互增强的AI基础设施,才能持续提升整体效率,真正压低分母。
为什么每Token成本比每美元FLOPS更有说服力?
我们来看一组基于DeepSeek-R1模型的数据,它清晰地展示了理论指标与实际商业结果之间的巨大鸿沟。
如果单看算力成本,NVIDIA Blackwell平台的成本似乎是上一代Hopper的2倍左右。但这笔投入能换来多少实际产出?算力成本本身无法回答。如果仅用每美元FLOPS来分析,Blackwell相较于Hopper的优势大约只有2倍。
然而,实际测试结果却呈现出数量级的差异:Blackwell每瓦特电力产生的Token产出是Hopper的50倍以上,其每百万Token的成本更是降低到了Hopper的约1/35。
(注:数据来源于NVIDIA内部分析及SemiAnalysis InferenceX v2基准测试。)
这一悬殊的差距表明,相较于上一代Hopper,NVIDIA Blackwell带来的商业价值跃迁,远远超过了其系统成本的增加幅度。
如何做出明智的AI基础设施选择?
综上所述,仅凭算力成本或每美元理论FLOPS来比较不同的AI基础设施,不仅是不充分的,更无法真实反映推理经济学的全貌。正如数据所揭示的,要准确评估一项AI基础设施的营收潜力和盈利能力,必须将衡量维度从“输入指标”转向“产出指标”,即每Token成本和实际Token产出量。
NVIDIA通过其在计算、网络、内存、存储、软件及合作伙伴技术上的极致协同设计,实现了业内领先的低Token成本与高Token吞吐量。更重要的是,基于NVIDIA平台构建的整个软件生态——包括vLLM、SGLang、NVIDIA TensorRT-LLM和NVIDIA Dynamo等开源推理软件的持续优化——意味着即使在基础设施部署完成后,Token产出仍有提升空间,每Token成本有望持续下降。
这一优势已在领先的云服务提供商和NVIDIA云合作伙伴的规模化部署中得到验证。包括CoreWea ve、Nebius、Nscale和Together AI在内的合作伙伴,已经部署并优化了基于NVIDIA Blackwell的技术栈,为企业提供当前市场上极具竞争力的Token成本。它们正在充分发挥NVIDIA在硬件、软件与生态系统协同设计上的全部优势,确保每一次AI交互都构建在这一完整、高效且持续进化的体系之上。
相关攻略
美股芯片板块近期表现不佳,呈现普遍走低态势。其中,英伟达股价微跌0 04%,台积电股价下跌0 93%,应用材料跌幅较大为3 21%,阿斯麦也下跌0 59%。仅有美光科技保持上涨,但涨幅收窄至1 27%。市场分析指出,这反映了投资者对半导体行业短期走势的审慎情绪,以及对宏观经济和行业周期因素的担忧。个
黑石与谷歌计划投资250亿美元组建AI云算力公司,其中黑石先投入50亿美元股权资本。新公司将依托谷歌TPU芯片及云服务,挑战独立算力服务商,推动谷歌TPU大规模外销,加剧与英伟达的竞争。双方目标在2027年上线500兆瓦算力,相关数据中心建设已启动,黑石借此巩固其在AI基础设施领域的领导地位。
英伟达正洽谈领投印度AI初创公司Simplismart,计划投资约2000万美元,投后估值预计达1亿美元。该公司专注于生成式AI和MLOps,若交易达成,其估值将在数月内从2500万美元跃升近四倍,增长迅猛。英伟达今年在AI领域投资已超400亿美元,持续扩张其生态布局。
今年二月,SK海力士与闪迪联合举办了一场规格标准化联盟启动会,正式向业界推出了面向AI推理时代的下一代存储器解决方案——HBF(高带宽闪存),并公布了其全球标准化战略。这一举措,无疑为当前火热的人工智能硬件领域注入了新的活力与可能性。 然而,尽管行业普遍看好HBF的技术潜力,各大厂商的跟进态度也显得
这两年,消费电子领域要是没带上“AI”两个字,发布会都不好意思开。根据IDC最新的一季度数据,全球AI手机的出货量占比已经突破45%,同比翻了两倍还不止;AI PC到年底的渗透率更是要冲击60%。然而,剥开厂商们华丽的营销话术,真实的用户体验堪称冰火两重天。 你以为手机上的“端侧AI”是真在本地运行
热门专题
热门推荐
为庆祝成立50周年,苹果在全球多地门店举办系列庆祝活动。最盛大的庆典在其总部ApplePark举行,员工齐聚草坪,传奇音乐人保罗·麦卡特尼登台献唱,首席执行官蒂姆·库克也参与其中。这场科技与艺术交融的盛会,既是对过往传奇的致敬,也寓意着新篇章的开启。
苹果公司成立五十周年之际,首席执行官蒂姆·库克发布内部信回顾历程。信中指出,公司从车库中的一台原型机起步,如今全球活跃设备已达25亿台。库克强调,未来需主动创造而非等待,并鼓励员工铭记创新精神,共同把握机遇,开创下一个五十年。
苹果CEO库克在专访中回顾了iPod的诞生历程。该产品以口袋装千首歌的能力革新了音乐消费方式。其爆红要求苹果在三个月内生产约1500万台,这极大考验了供应链。此次极限压力测试为苹果锻造出世界级供应链能力奠定了基础。库克还透露,首台原型机播放的第一首歌是《HeyJude》。
知名投资人段永平家族办公室持仓市值升至约200亿美元。本季度清仓阿里,减持苹果、台积电;重仓AI与电动车赛道,大幅增持英伟达并新建仓特斯拉,拼多多获增持。其首次跨足Web3领域,建仓稳定币发行商Circle,显示对合规区块链基础设施的关注。
Mac内置的“缩放”辅助功能可放大屏幕细节。通过系统设置开启该功能后,可选择画中画或全屏模式。用户可使用修饰键配合触控板手势、快捷键组合、双击Control+Option或鼠标智能缩放等多种方式灵活操作,满足不同场景下的查看需求。





