坐拥约55万块英伟达GPU,实际算力利用率却仅为11%——这一巨大反差,近期将马斯克旗下的xAI推至舆论焦点,也促使整个AI行业深入审视其算力利用效率的现状与挑战。
根据外媒《The Information》获取的内部备忘录,xAI公司总裁迈克尔·尼科尔斯向团队坦言,目前公司模型训练的浮点运算利用率(MFU)大约在11%左右。这一数字意味着什么?简而言之,即理论上可输出100份训练算力的硬件资源,实际仅产出了11份有效算力。尼科尔斯在备忘录中直言,这一数值“低得令人尴尬”,并为团队设定了明确目标:在未来数月内,将利用率提升至50%。
据了解,xAI目前拥有的GPU数量约为55万颗,主要为H100和H200系列。尽管这些芯片较英伟达最新的Blackwell架构产品落后一代,但如此庞大的部署规模,依然在业界留下了深刻印象。
需要明确的是,11%的MFU并非指有89%的GPU处于闲置状态。MFU是一个极为严苛的效能指标,它衡量的是有效训练吞吐量占硬件理论峰值算力的比例。换言之,它反映了整个AI训练系统在软件调度、数据流水线、网络通信效率等方面的综合表现。
那么,这一水平在行业内处于什么位置?对比之下差距显著。目前,生产级大模型训练的MFU通常可维持在35%至45%之间。像Meta与谷歌这样具备深厚技术积累的公司,凭借其长期优化的软件栈与基础设施,GPU利用率分别可达43%和46%左右。
即便回溯至以“效率偏低”著称的GPT-3训练时期,其MFU也能稳定在21%到26%。相比之下,xAI的11%,不仅远低于当前行业主流水平,甚至不及AI算力发展史上某些早期阶段的基准。
问题根源何在?关键并非硬件性能,而在于软件与系统优化。坐拥顶级的算力“矿藏”,却未能实现高效开采,这背后暴露的是系统性的技术短板。
据悉,xAI在硬件部署上基本采用了英伟达的标准方案,但其自研的软件栈、并行训练策略以及模型工程优化,远远跟不上硬件规模的极速扩张。具体瓶颈包括:HBM高带宽内存的读取速度显著慢于计算芯片本身,导致GPU大量时间处于等待数据的空转状态;而在由数万张卡构建的超大规模集群中,任何网络拓扑瓶颈,在严格的分布式同步训练要求下,其性能影响都会被急剧放大。
此外,行业分析机构如Lambda也指出,显存压力、过度的激活重计算(activation recomputation)、以及张量并行带来的跨GPU通信开销等,均是系统性拖累MFU提升的重要因素。
客观而言,xAI的基础设施建设速度堪称行业奇迹。其名为Colossus的超级计算机仅用122天即建成,GPU规模在极短时间内迅猛增长。但这种“硬件先行”的快速扩张节奏,也无情地凸显了软件与系统优化滞后的关键短板。正如奔跑时鞋带未系,难免影响前行步伐。

