首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
马斯克xAI公司55万张英伟达GPU利用率仅11% 算力资源待优化

马斯克xAI公司55万张英伟达GPU利用率仅11% 算力资源待优化

热心网友
17
转载
2026-05-17

坐拥约55万块英伟达GPU,实际算力利用率却仅为11%——这一巨大反差,近期将马斯克旗下的xAI推至舆论焦点,也促使整个AI行业深入审视其算力利用效率的现状与挑战。

根据外媒《The Information》获取的内部备忘录,xAI公司总裁迈克尔·尼科尔斯向团队坦言,目前公司模型训练的浮点运算利用率(MFU)大约在11%左右。这一数字意味着什么?简而言之,即理论上可输出100份训练算力的硬件资源,实际仅产出了11份有效算力。尼科尔斯在备忘录中直言,这一数值“低得令人尴尬”,并为团队设定了明确目标:在未来数月内,将利用率提升至50%。

据了解,xAI目前拥有的GPU数量约为55万颗,主要为H100和H200系列。尽管这些芯片较英伟达最新的Blackwell架构产品落后一代,但如此庞大的部署规模,依然在业界留下了深刻印象。

需要明确的是,11%的MFU并非指有89%的GPU处于闲置状态。MFU是一个极为严苛的效能指标,它衡量的是有效训练吞吐量占硬件理论峰值算力的比例。换言之,它反映了整个AI训练系统在软件调度、数据流水线、网络通信效率等方面的综合表现。

那么,这一水平在行业内处于什么位置?对比之下差距显著。目前,生产级大模型训练的MFU通常可维持在35%至45%之间。像Meta与谷歌这样具备深厚技术积累的公司,凭借其长期优化的软件栈与基础设施,GPU利用率分别可达43%和46%左右。

即便回溯至以“效率偏低”著称的GPT-3训练时期,其MFU也能稳定在21%到26%。相比之下,xAI的11%,不仅远低于当前行业主流水平,甚至不及AI算力发展史上某些早期阶段的基准。

问题根源何在?关键并非硬件性能,而在于软件与系统优化。坐拥顶级的算力“矿藏”,却未能实现高效开采,这背后暴露的是系统性的技术短板。

据悉,xAI在硬件部署上基本采用了英伟达的标准方案,但其自研的软件栈、并行训练策略以及模型工程优化,远远跟不上硬件规模的极速扩张。具体瓶颈包括:HBM高带宽内存的读取速度显著慢于计算芯片本身,导致GPU大量时间处于等待数据的空转状态;而在由数万张卡构建的超大规模集群中,任何网络拓扑瓶颈,在严格的分布式同步训练要求下,其性能影响都会被急剧放大。

此外,行业分析机构如Lambda也指出,显存压力、过度的激活重计算(activation recomputation)、以及张量并行带来的跨GPU通信开销等,均是系统性拖累MFU提升的重要因素。

客观而言,xAI的基础设施建设速度堪称行业奇迹。其名为Colossus的超级计算机仅用122天即建成,GPU规模在极短时间内迅猛增长。但这种“硬件先行”的快速扩张节奏,也无情地凸显了软件与系统优化滞后的关键短板。正如奔跑时鞋带未系,难免影响前行步伐。

马斯克的xAI坐拥55万张英伟达GPU加速卡 利用率仅11%

来源:https://m.mydrivers.com/newsview/1120097.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

国产AI芯片自给率飙升 2030年有望突破八成
AI
国产AI芯片自给率飙升 2030年有望突破八成

摩根斯坦利研究报告显示,国产AI芯片自给率正经历高速增长。2021年自给率仅为10%,预计今年将跃升至41%,并有望在2030年达到86%。目前,国内已涌现出摩尔线程、壁仞科技、沐曦科技等一批GPU芯片设计公司,连同华为、寒武纪等NPU主力厂商,共同构建起国产AI芯片生态。分析指出,随着AI计算芯片

热心网友
05.15
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升
科技数码
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升

英伟达推出12GB显存版RTX5070移动GPU,与8GB版同步上市。两者均基于Blackwell架构,核心规格相同,仅显存容量不同。此举旨在缓解GDDR7芯片供应压力,为OEM提供灵活配置,加速笔记本产品布局,更大显存可更好满足游戏与AI应用需求。

热心网友
05.14
黄仁勋谈GPU保值秘诀 五年前显卡为何越用越值钱
业界动态
黄仁勋谈GPU保值秘诀 五年前显卡为何越用越值钱

随着人工智能技术进入高速发展期,全球对算力的需求呈现爆发式增长。在众多算力资源中,GPU(图形处理器)已成为最核心且最紧缺的硬件。市场热度持续攀升,甚至带动了多年前发布的旧型号GPU价格逆势上涨,形成了一股罕见的市场风潮。 近日,英伟达(NVIDIA)首席执行官黄仁勋对这一现象给出了一个生动的比喻—

热心网友
05.14
港中文AI导演系统:聊天生成多镜头电影,单GPU打造好莱坞级视频
AI
港中文AI导演系统:聊天生成多镜头电影,单GPU打造好莱坞级视频

这项由香港中文大学多媒体实验室、快手科技以及香港创新科技研究院联合开展的研究,已于2026年3月发表在计算机视觉顶级会议上,论文编号为arXiv:2603 25746v1。对技术细节感兴趣的读者,可以据此查阅完整论文。 当前的AI视频生成技术,更像是一位只会使用固定机位的摄影师。它能产出精美的单帧画

热心网友
05.14
英伟达黄仁勋谈GPU保值:五年前显卡如陈年老酒越用越值钱
科技数码
英伟达黄仁勋谈GPU保值:五年前显卡如陈年老酒越用越值钱

AI需求爆发导致GPU严重短缺,连四五年前的旧款芯片价格也持续上涨。英伟达CEO黄仁勋将此现象比作“好酒效应”,形容GPU价格随时间不降反升。全球AI数据中心高度依赖GPU算力,供需失衡推高了全产业链价格。旧款GPU需求强劲,升值速度甚至超过真正陈年佳酿,反映出市场对算力资源的极度渴求。

热心网友
05.14

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

美国将比特币列为国家安全资产对全球局势与加密市场的影响
web3.0
美国将比特币列为国家安全资产对全球局势与加密市场的影响

在全球紧张局势下,美国国防部将比特币重新定义为国家安全资产,反映出其战略价值提升。美国国库持有大量比特币,大国博弈中加密货币已成为国家安全筹码。市场普遍认为这一身份转变将增强机构需求,推动价格上涨。后续需关注美国政策动向、地缘政治变化及相关监管动态。

热心网友
05.17
Windows蓝屏代码0x00000012修复指南 内核异常解决方法详解
系统平台
Windows蓝屏代码0x00000012修复指南 内核异常解决方法详解

当Windows系统遭遇蓝屏时,那些含义不明的错误代码往往令人困扰。例如代码0x00000012 (TRAP_CAUSE_UNKNOWN),其官方解释为“内核捕获到无法识别的异常”。这就像一个笼统的系统警报,提示底层发生了问题,但并未指明具体故障点。此类错误通常不关联特定系统文件,反而更常见于新硬件

热心网友
05.17
Win10系统安装Java环境详细步骤与JDK配置指南
系统平台
Win10系统安装Java环境详细步骤与JDK配置指南

必须安装JDK并配置JA VA_HOME与Path环境变量;先下载JDK 17 21 LTS版本,安装时取消“Add to PATH”,再手动设置JA VA_HOME指向安装目录,并在Path中添加%JA VA_HOME% bin,最后用ja va -version等命令验证。 在Windows 1

热心网友
05.17
Mac图片文字提取技巧 苹果自带OCR功能使用指南
系统平台
Mac图片文字提取技巧 苹果自带OCR功能使用指南

对于Mac用户而言,从图片中提取文字其实无需额外安装第三方OCR软件。macOS系统自身就集成了强大的光学字符识别功能,它基于苹果自研的Vision框架与Core ML机器学习模型。最大的优势在于完全离线运行,所有图片处理均在本地完成,无需上传至任何云端服务器,充分保障了用户的隐私与数据安全。本文将

热心网友
05.17
Linux服务器开启TCP Keepalive防止数据库连接断开教程
系统平台
Linux服务器开启TCP Keepalive防止数据库连接断开教程

数据库长连接在静默中突然断开,是很多运维和开发都踩过的坑。你以为启用了TCP Keepalive就万事大吉?真相是,如果应用层、内核层和基础设施层的配置没有协同对齐,这个“保活”机制基本等于形同虚设。 问题的核心在于,一个完整的TCP Keepalive生效链条涉及三个环节:你的应用程序或连接池是否

热心网友
05.17