5月18日,投资银&行摩根士丹利发布了一份引人注目的报告,将数据中心芯片的成本与效率问题推到了聚光灯下。报告指出,若超大规模数据中心运营商选择使用英伟达最新的Blackwell AI GPU来构建一座1吉瓦规模的数据中心,其初始建造成本,将高达采用谷歌TPU或亚马逊Trainium芯片构建同等规模数据中心的两倍。

成本翻倍,听起来是个不小的门槛。但摩根士丹利的分析并未止步于此。报告进一步揭示,尽管前期投入巨大,英伟达Blackwell芯片在计算效率上的优势却十分显著,长远来看可能带来更高的回报。
效率对比:性能优势明显
为了量化这种效率差异,摩根士丹利进行了一项关键测算:对比每瓦特功耗所能提供的浮点运算性能(每瓦TFLOPS)。结果显示,英伟达的多款GPU芯片,其每瓦性能表现远超亚马逊和谷歌的定制ASIC芯片,领先幅度达到了2到8倍。
这似乎印证了英伟达CEO黄仁勋此前的多次表态。他始终强调,虽然英伟达的芯片价格不菲,但从全生命周期和最终产出效率看,能为客户创造更高的价值回报。
性能榜单:英伟达占据前列
在具体的每瓦性能得分榜单上,英伟达的优势更为直观。其计划推出的下一代Vera Rubin架构芯片(FP4精度)以19.5的高分位居榜首。同系列的Vera Rubin芯片(FP8精度)得分为6.8,即将上市的GB300芯片(FP8精度)得分为6.0,而目前市场主流的H100芯片(FP8精度)得分为3.1。
作为对比,谷歌的TPUv7芯片(FP8精度)得分为4.3,亚马逊的Trainium 3芯片(FP8精度)得分为2.5。这意味着,这两家云巨头的定制芯片性能,大体介于英伟达Blackwell与上一代Hopper架构之间,部分指标甚至不及Hopper。
成本维度:另一个关键视角
当然,评估AI芯片不能只看绝对性能。人工智能基础设施提供商Nebius的分析指出,另一个至关重要的标准是“每百万Token的生成成本”与“GPU每小时运行成本”的比值。这直接关系到模型推理阶段的实际经济性。
根据Nebius的测算,专注于推理加速的Groq AI芯片,每生成百万Token的成本在5到10美分之间,其生成速度可达每秒800个Token。
而英伟达的Blackwell芯片,在这一指标上的表现是:每生成百万Token的成本约为25美分,生成速度约为每秒450个Token。
由此可见,芯片的选择是一场复杂的权衡。是优先考虑前期的建造成本,还是更看重长远的运算效率与综合成本?不同的厂商根据自身的业务模式和战略重点,正在给出不同的答案。英伟达凭借其强大的硬件性能,试图证明高昂的初始投入能够被后续卓越的效率所抵消。这场围绕成本与效率的竞赛,才刚刚进入深水区。
