AI时代,大家都在疯狂堆砌GPU,但堆起来之后呢?最近《The Information》的一篇报道,把马斯克旗下xAI的算力家底和实际效率摊在了桌面上,结果让人有些意外。

目前,xAI在孟菲斯和巨像两大数据中心集群里,运营着大约55万块英伟达H100和H200 GPU,部分还采用了液冷散热。尽管这属于上一代产品(早于最新的Blackwell系列),但数量之巨已然令人咋舌。
然而,拥有如此庞大的硬件规模,xAI的模型算力利用率却只有大约11%。这意味着什么呢?打个比方,这相当于50万块GPU里,真正在干活的算力只顶得上6万块的水平。问题到底出在哪?
规模越大,协调越难
首先,问题的根源在于规模本身。对于几千块GPU的中等规模部署,多节点间的协调还算可控。可一旦集群规模膨胀到数十万块,情况就完全不同了。设备的空闲时间会像滚雪球一样累积,导致整体利用率断崖式下跌。xAI目前暴露出的,正是其软件栈在应对这种超级规模时的一系列不一致性问题。
在超大规模集群里,GPU芯片本身的计算速度很快,真正的瓶颈往往在于其他地方:一是高带宽内存的数据读写速度,二是成千上万台服务器之间网络通信的开销。只要数据传输出现哪怕微小的延迟或网络拥堵,整个集群的GPU就不得不“原地待命”,等待数据就位。
另一方面,AI模型的训练过程本身也是间歇性的。GPU在全力计算时固然满载,但当研究人员停下来分析结果、调整参数或处理数据管道时,大量设备就不可避免地进入闲置状态。
行业潜规则:算力浪费与“刷数据”
当然,11%这个数字确实偏低,但报道也揭示了一个行业内心照不宣的现实:算力浪费是普遍现象。甚至有些大厂的研究人员,为了应对管理层的考核压力,或者担心闲置的GPU配额被其他团队抢走,会故意重复运行一些意义不大的训练任务,以此来“刷高”利用率报表。这么做,无非是为了保住自己团队的资源配额。

所以说,这并非xAI一家独有的难题,而是整个AI行业在追求极致规模时,共同面临的结构性挑战。要让如此庞大的基础设施高效运转,涉及的优化技能横跨数据、算法、模型、计算内核乃至人机与智能体间的交互,工程难度极高。
头部玩家的效率标杆
不过,挑战虽大,并非无解。一些科技巨头通过深度优化其大规模基础设施堆栈,已经实现了相当可观的效率。例如,Meta和谷歌就是典范,他们的GPU利用率据称分别达到了43%和46%。
xAI的困境清晰地表明,在当前的AI军备竞赛中,“买到GPU”只是入场券,“用好GPU”才是真正的核心竞争力。当硬件规模超出了现有软件架构的调度能力时,堆再多的卡也可能事倍功半。
下半场竞赛:从拼硬件到拼优化
面对问题,xAI已经在行动,设定了将利用率提升至50%的目标。虽然没有确切时间表,但其改进核心将聚焦于基础设施与软件堆栈的优化。有分析指出,随着未来工作负载逐步迁移到为“智能体AI”需求设计的硬件平台,xAI庞大的GPU集群甚至有可能对外提供租赁服务。
与此同时,马斯克也在寻求更根本的转变,将筹码押在了自研算力的“TeraFab”项目上。一方面,推动多款自研芯片加入xAI的“AI芯片家族”;另一方面,也希望借助英特尔的先进制程技术,为xAI、SpaceX等业务打造下一代解决方案。
xAI的这段经历,给所有AI赛道的追赶者提了个醒:竞赛的下半场,决胜关键或许不再是谁能抢到更多显卡,而是谁能让每一块显卡发挥出真正的价值。从“堆规模”到“提效率”,这才是接下来真正的硬仗。
