游乐游手机版
首页/业界动态/文章详情

马斯克55万英伟达GPU利用率仅11% 大型AI算力闲置引关注

时间:2026-05-17 10:35
AI时代,大家都在疯狂堆砌GPU,但堆起来之后呢?最近《The Information》的一篇报道,把马斯克旗下xAI的算力家底和实际效率摊在了桌面上,结果让人有些意外。 目前,xAI在孟菲斯和巨像两大数据中心集群里,运营着大约55万块英伟达H100和H200 GPU,部分还采用了液冷散热。尽管这属

AI时代,大家都在疯狂堆砌GPU,但堆起来之后呢?最近《The Information》的一篇报道,把马斯克旗下xAI的算力家底和实际效率摊在了桌面上,结果让人有些意外。

目前,xAI在孟菲斯和巨像两大数据中心集群里,运营着大约55万块英伟达H100和H200 GPU,部分还采用了液冷散热。尽管这属于上一代产品(早于最新的Blackwell系列),但数量之巨已然令人咋舌。

然而,拥有如此庞大的硬件规模,xAI的模型算力利用率却只有大约11%。这意味着什么呢?打个比方,这相当于50万块GPU里,真正在干活的算力只顶得上6万块的水平。问题到底出在哪?

规模越大,协调越难

首先,问题的根源在于规模本身。对于几千块GPU的中等规模部署,多节点间的协调还算可控。可一旦集群规模膨胀到数十万块,情况就完全不同了。设备的空闲时间会像滚雪球一样累积,导致整体利用率断崖式下跌。xAI目前暴露出的,正是其软件栈在应对这种超级规模时的一系列不一致性问题。

在超大规模集群里,GPU芯片本身的计算速度很快,真正的瓶颈往往在于其他地方:一是高带宽内存的数据读写速度,二是成千上万台服务器之间网络通信的开销。只要数据传输出现哪怕微小的延迟或网络拥堵,整个集群的GPU就不得不“原地待命”,等待数据就位。

另一方面,AI模型的训练过程本身也是间歇性的。GPU在全力计算时固然满载,但当研究人员停下来分析结果、调整参数或处理数据管道时,大量设备就不可避免地进入闲置状态。

行业潜规则:算力浪费与“刷数据”

当然,11%这个数字确实偏低,但报道也揭示了一个行业内心照不宣的现实:算力浪费是普遍现象。甚至有些大厂的研究人员,为了应对管理层的考核压力,或者担心闲置的GPU配额被其他团队抢走,会故意重复运行一些意义不大的训练任务,以此来“刷高”利用率报表。这么做,无非是为了保住自己团队的资源配额。

所以说,这并非xAI一家独有的难题,而是整个AI行业在追求极致规模时,共同面临的结构性挑战。要让如此庞大的基础设施高效运转,涉及的优化技能横跨数据、算法、模型、计算内核乃至人机与智能体间的交互,工程难度极高。

头部玩家的效率标杆

不过,挑战虽大,并非无解。一些科技巨头通过深度优化其大规模基础设施堆栈,已经实现了相当可观的效率。例如,Meta和谷歌就是典范,他们的GPU利用率据称分别达到了43%和46%。

xAI的困境清晰地表明,在当前的AI军备竞赛中,“买到GPU”只是入场券,“用好GPU”才是真正的核心竞争力。当硬件规模超出了现有软件架构的调度能力时,堆再多的卡也可能事倍功半。

下半场竞赛:从拼硬件到拼优化

面对问题,xAI已经在行动,设定了将利用率提升至50%的目标。虽然没有确切时间表,但其改进核心将聚焦于基础设施与软件堆栈的优化。有分析指出,随着未来工作负载逐步迁移到为“智能体AI”需求设计的硬件平台,xAI庞大的GPU集群甚至有可能对外提供租赁服务。

与此同时,马斯克也在寻求更根本的转变,将筹码押在了自研算力的“TeraFab”项目上。一方面,推动多款自研芯片加入xAI的“AI芯片家族”;另一方面,也希望借助英特尔的先进制程技术,为xAI、SpaceX等业务打造下一代解决方案。

xAI的这段经历,给所有AI赛道的追赶者提了个醒:竞赛的下半场,决胜关键或许不再是谁能抢到更多显卡,而是谁能让每一块显卡发挥出真正的价值。从“堆规模”到“提效率”,这才是接下来真正的硬仗。

来源:https://36kr.com/p/3795874564250627
上一篇宁夏5A景区为持零彩礼证书新人提供免门票优惠 下一篇Barocal固态可挤压制冷剂将如何改变冰箱与空调的未来
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
长安汽车明年一季度发布首款车载人形机器人小安
业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略,采用“1+N+X”布局,联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm,体重69kg,移动速度0 8m s,具备40个自由度,续航超2小时。预计明年一季度发布首款车载组件机器人,已在广州车展展示。

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影
业界动态 · 2026-06-29

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影

3月25日,光通信领域迎来又一个里程碑:中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司,成功实现了2 5Pb s 24芯光纤超大容量实时光传输,再次刷新了世界纪录。 这一研究成果不仅入选国际顶级光通信会议OFC(2026)并荣获“高分论文”称号,还受国际权威SCI

美国调查18万辆特斯拉Model3车门应急释放装置易找性
业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查,焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿,不意味着立即召回,但可能引发后续监管措施。

doc个人图书馆停服 创始人称无偿转让失败
业界动态 · 2026-06-29

doc个人图书馆停服 创始人称无偿转让失败

运营长达20年,累计服务8000万用户的360doc个人图书馆,最终还是迎来了谢幕时刻。2026年5月1日,这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失,而是始终未能寻得一位能够安全接管的合适人选。 创始人蔡智在告别信中坦言,近两个月来,他一直在尝试将360doc无偿转

年Q1随身WiFi实测安全靠谱高性价比机型推荐
业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月,艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证,紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后,折射出一个清晰的市场趋势:移动办公、户外出行、宿舍上网等场景的需求正在快速增长,随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿