游乐游手机版
首页/业界动态/文章详情

马斯克xAI公司55万张英伟达GPU利用率仅11% 算力资源待优化

时间:2026-05-17 11:18
坐拥约55万块英伟达GPU,实际算力利用率却仅为11%——这一巨大反差,近期将马斯克旗下的xAI推至舆论焦点,也促使整个AI行业深入审视其算力利用效率的现状与挑战。 根据外媒《The Information》获取的内部备忘录,xAI公司总裁迈克尔·尼科尔斯向团队坦言,目前公司模型训练的浮点运算利用率

坐拥约55万块英伟达GPU,实际算力利用率却仅为11%——这一巨大反差,近期将马斯克旗下的xAI推至舆论焦点,也促使整个AI行业深入审视其算力利用效率的现状与挑战。

根据外媒《The Information》获取的内部备忘录,xAI公司总裁迈克尔·尼科尔斯向团队坦言,目前公司模型训练的浮点运算利用率(MFU)大约在11%左右。这一数字意味着什么?简而言之,即理论上可输出100份训练算力的硬件资源,实际仅产出了11份有效算力。尼科尔斯在备忘录中直言,这一数值“低得令人尴尬”,并为团队设定了明确目标:在未来数月内,将利用率提升至50%。

据了解,xAI目前拥有的GPU数量约为55万颗,主要为H100和H200系列。尽管这些芯片较英伟达最新的Blackwell架构产品落后一代,但如此庞大的部署规模,依然在业界留下了深刻印象。

需要明确的是,11%的MFU并非指有89%的GPU处于闲置状态。MFU是一个极为严苛的效能指标,它衡量的是有效训练吞吐量占硬件理论峰值算力的比例。换言之,它反映了整个AI训练系统在软件调度、数据流水线、网络通信效率等方面的综合表现。

那么,这一水平在行业内处于什么位置?对比之下差距显著。目前,生产级大模型训练的MFU通常可维持在35%至45%之间。像Meta与谷歌这样具备深厚技术积累的公司,凭借其长期优化的软件栈与基础设施,GPU利用率分别可达43%和46%左右。

即便回溯至以“效率偏低”著称的GPT-3训练时期,其MFU也能稳定在21%到26%。相比之下,xAI的11%,不仅远低于当前行业主流水平,甚至不及AI算力发展史上某些早期阶段的基准。

问题根源何在?关键并非硬件性能,而在于软件与系统优化。坐拥顶级的算力“矿藏”,却未能实现高效开采,这背后暴露的是系统性的技术短板。

据悉,xAI在硬件部署上基本采用了英伟达的标准方案,但其自研的软件栈、并行训练策略以及模型工程优化,远远跟不上硬件规模的极速扩张。具体瓶颈包括:HBM高带宽内存的读取速度显著慢于计算芯片本身,导致GPU大量时间处于等待数据的空转状态;而在由数万张卡构建的超大规模集群中,任何网络拓扑瓶颈,在严格的分布式同步训练要求下,其性能影响都会被急剧放大。

此外,行业分析机构如Lambda也指出,显存压力、过度的激活重计算(activation recomputation)、以及张量并行带来的跨GPU通信开销等,均是系统性拖累MFU提升的重要因素。

客观而言,xAI的基础设施建设速度堪称行业奇迹。其名为Colossus的超级计算机仅用122天即建成,GPU规模在极短时间内迅猛增长。但这种“硬件先行”的快速扩张节奏,也无情地凸显了软件与系统优化滞后的关键短板。正如奔跑时鞋带未系,难免影响前行步伐。

马斯克的xAI坐拥55万张英伟达GPU加速卡 利用率仅11%

来源:https://m.mydrivers.com/newsview/1120097.html
上一篇全球三大内存厂商启动DDR6研发,预计2028-2029年商用 下一篇《inKONBINI》2026年发售:重温90年代日本便利店温情经营模拟
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
长安汽车明年一季度发布首款车载人形机器人小安
业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略,采用“1+N+X”布局,联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm,体重69kg,移动速度0 8m s,具备40个自由度,续航超2小时。预计明年一季度发布首款车载组件机器人,已在广州车展展示。

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影
业界动态 · 2026-06-29

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影

3月25日,光通信领域迎来又一个里程碑:中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司,成功实现了2 5Pb s 24芯光纤超大容量实时光传输,再次刷新了世界纪录。 这一研究成果不仅入选国际顶级光通信会议OFC(2026)并荣获“高分论文”称号,还受国际权威SCI

美国调查18万辆特斯拉Model3车门应急释放装置易找性
业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查,焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿,不意味着立即召回,但可能引发后续监管措施。

doc个人图书馆停服 创始人称无偿转让失败
业界动态 · 2026-06-29

doc个人图书馆停服 创始人称无偿转让失败

运营长达20年,累计服务8000万用户的360doc个人图书馆,最终还是迎来了谢幕时刻。2026年5月1日,这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失,而是始终未能寻得一位能够安全接管的合适人选。 创始人蔡智在告别信中坦言,近两个月来,他一直在尝试将360doc无偿转

年Q1随身WiFi实测安全靠谱高性价比机型推荐
业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月,艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证,紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后,折射出一个清晰的市场趋势:移动办公、户外出行、宿舍上网等场景的需求正在快速增长,随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿