马斯克55万英伟达GPU利用率仅11% 大型AI算力闲置引关注

时间：2026-05-17 10:35

AI时代，大家都在疯狂堆砌GPU，但堆起来之后呢？最近《The Information》的一篇报道，把马斯克旗下xAI的算力家底和实际效率摊在了桌面上，结果让人有些意外。目前，xAI在孟菲斯和巨像两大数据中心集群里，运营着大约55万块英伟达H100和H200 GPU，部分还采用了液冷散热。尽管这属

AI时代，大家都在疯狂堆砌GPU，但堆起来之后呢？最近《The Information》的一篇报道，把马斯克旗下xAI的算力家底和实际效率摊在了桌面上，结果让人有些意外。

目前，xAI在孟菲斯和巨像两大数据中心集群里，运营着大约55万块英伟达H100和H200 GPU，部分还采用了液冷散热。尽管这属于上一代产品（早于最新的Blackwell系列），但数量之巨已然令人咋舌。

然而，拥有如此庞大的硬件规模，xAI的模型算力利用率却只有大约11%。这意味着什么呢？打个比方，这相当于50万块GPU里，真正在干活的算力只顶得上6万块的水平。问题到底出在哪？

规模越大，协调越难

首先，问题的根源在于规模本身。对于几千块GPU的中等规模部署，多节点间的协调还算可控。可一旦集群规模膨胀到数十万块，情况就完全不同了。设备的空闲时间会像滚雪球一样累积，导致整体利用率断崖式下跌。xAI目前暴露出的，正是其软件栈在应对这种超级规模时的一系列不一致性问题。

在超大规模集群里，GPU芯片本身的计算速度很快，真正的瓶颈往往在于其他地方：一是高带宽内存的数据读写速度，二是成千上万台服务器之间网络通信的开销。只要数据传输出现哪怕微小的延迟或网络拥堵，整个集群的GPU就不得不“原地待命”，等待数据就位。

另一方面，AI模型的训练过程本身也是间歇性的。GPU在全力计算时固然满载，但当研究人员停下来分析结果、调整参数或处理数据管道时，大量设备就不可避免地进入闲置状态。

行业潜规则：算力浪费与“刷数据”

当然，11%这个数字确实偏低，但报道也揭示了一个行业内心照不宣的现实：算力浪费是普遍现象。甚至有些大厂的研究人员，为了应对管理层的考核压力，或者担心闲置的GPU配额被其他团队抢走，会故意重复运行一些意义不大的训练任务，以此来“刷高”利用率报表。这么做，无非是为了保住自己团队的资源配额。

所以说，这并非xAI一家独有的难题，而是整个AI行业在追求极致规模时，共同面临的结构性挑战。要让如此庞大的基础设施高效运转，涉及的优化技能横跨数据、算法、模型、计算内核乃至人机与智能体间的交互，工程难度极高。

头部玩家的效率标杆

不过，挑战虽大，并非无解。一些科技巨头通过深度优化其大规模基础设施堆栈，已经实现了相当可观的效率。例如，Meta和谷歌就是典范，他们的GPU利用率据称分别达到了43%和46%。

xAI的困境清晰地表明，在当前的AI军备竞赛中，“买到GPU”只是入场券，“用好GPU”才是真正的核心竞争力。当硬件规模超出了现有软件架构的调度能力时，堆再多的卡也可能事倍功半。

下半场竞赛：从拼硬件到拼优化

面对问题，xAI已经在行动，设定了将利用率提升至50%的目标。虽然没有确切时间表，但其改进核心将聚焦于基础设施与软件堆栈的优化。有分析指出，随着未来工作负载逐步迁移到为“智能体AI”需求设计的硬件平台，xAI庞大的GPU集群甚至有可能对外提供租赁服务。

与此同时，马斯克也在寻求更根本的转变，将筹码押在了自研算力的“TeraFab”项目上。一方面，推动多款自研芯片加入xAI的“AI芯片家族”；另一方面，也希望借助英特尔的先进制程技术，为xAI、SpaceX等业务打造下一代解决方案。

xAI的这段经历，给所有AI赛道的追赶者提了个醒：竞赛的下半场，决胜关键或许不再是谁能抢到更多显卡，而是谁能让每一块显卡发挥出真正的价值。从“堆规模”到“提效率”，这才是接下来真正的硬仗。

来源：https://36kr.com/p/3795874564250627

GPU

上一篇宁夏5A景区为持零彩礼证书新人提供免门票优惠 下一篇Barocal固态可挤压制冷剂将如何改变冰箱与空调的未来

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略，采用“1+N+X”布局，联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm，体重69kg，移动速度0 8m s，具备40个自由度，续航超2小时。预计明年一季度发布首款车载组件机器人，已在广州车展展示。

业界动态 · 2026-06-29

中国信科刷新光通信世界纪录每秒可下载1.4万部4K电影

3月25日，光通信领域迎来又一个里程碑：中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司，成功实现了2 5Pb s 24芯光纤超大容量实时光传输，再次刷新了世界纪录。这一研究成果不仅入选国际顶级光通信会议OFC（2026）并荣获“高分论文”称号，还受国际权威SCI

业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查，焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿，不意味着立即召回，但可能引发后续监管措施。

业界动态 · 2026-06-29

doc个人图书馆停服创始人称无偿转让失败

运营长达20年，累计服务8000万用户的360doc个人图书馆，最终还是迎来了谢幕时刻。2026年5月1日，这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失，而是始终未能寻得一位能够安全接管的合适人选。创始人蔡智在告别信中坦言，近两个月来，他一直在尝试将360doc无偿转

业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月，艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证，紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后，折射出一个清晰的市场趋势：移动办公、户外出行、宿舍上网等场景的需求正在快速增长，随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿