首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
马斯克55万英伟达GPU利用率仅11% 大型AI算力闲置引关注

马斯克55万英伟达GPU利用率仅11% 大型AI算力闲置引关注

热心网友
35
转载
2026-05-17

AI时代,大家都在疯狂堆砌GPU,但堆起来之后呢?最近《The Information》的一篇报道,把马斯克旗下xAI的算力家底和实际效率摊在了桌面上,结果让人有些意外。

目前,xAI在孟菲斯和巨像两大数据中心集群里,运营着大约55万块英伟达H100和H200 GPU,部分还采用了液冷散热。尽管这属于上一代产品(早于最新的Blackwell系列),但数量之巨已然令人咋舌。

然而,拥有如此庞大的硬件规模,xAI的模型算力利用率却只有大约11%。这意味着什么呢?打个比方,这相当于50万块GPU里,真正在干活的算力只顶得上6万块的水平。问题到底出在哪?

规模越大,协调越难

首先,问题的根源在于规模本身。对于几千块GPU的中等规模部署,多节点间的协调还算可控。可一旦集群规模膨胀到数十万块,情况就完全不同了。设备的空闲时间会像滚雪球一样累积,导致整体利用率断崖式下跌。xAI目前暴露出的,正是其软件栈在应对这种超级规模时的一系列不一致性问题。

在超大规模集群里,GPU芯片本身的计算速度很快,真正的瓶颈往往在于其他地方:一是高带宽内存的数据读写速度,二是成千上万台服务器之间网络通信的开销。只要数据传输出现哪怕微小的延迟或网络拥堵,整个集群的GPU就不得不“原地待命”,等待数据就位。

另一方面,AI模型的训练过程本身也是间歇性的。GPU在全力计算时固然满载,但当研究人员停下来分析结果、调整参数或处理数据管道时,大量设备就不可避免地进入闲置状态。

行业潜规则:算力浪费与“刷数据”

当然,11%这个数字确实偏低,但报道也揭示了一个行业内心照不宣的现实:算力浪费是普遍现象。甚至有些大厂的研究人员,为了应对管理层的考核压力,或者担心闲置的GPU配额被其他团队抢走,会故意重复运行一些意义不大的训练任务,以此来“刷高”利用率报表。这么做,无非是为了保住自己团队的资源配额。

所以说,这并非xAI一家独有的难题,而是整个AI行业在追求极致规模时,共同面临的结构性挑战。要让如此庞大的基础设施高效运转,涉及的优化技能横跨数据、算法、模型、计算内核乃至人机与智能体间的交互,工程难度极高。

头部玩家的效率标杆

不过,挑战虽大,并非无解。一些科技巨头通过深度优化其大规模基础设施堆栈,已经实现了相当可观的效率。例如,Meta和谷歌就是典范,他们的GPU利用率据称分别达到了43%和46%。

xAI的困境清晰地表明,在当前的AI军备竞赛中,“买到GPU”只是入场券,“用好GPU”才是真正的核心竞争力。当硬件规模超出了现有软件架构的调度能力时,堆再多的卡也可能事倍功半。

下半场竞赛:从拼硬件到拼优化

面对问题,xAI已经在行动,设定了将利用率提升至50%的目标。虽然没有确切时间表,但其改进核心将聚焦于基础设施与软件堆栈的优化。有分析指出,随着未来工作负载逐步迁移到为“智能体AI”需求设计的硬件平台,xAI庞大的GPU集群甚至有可能对外提供租赁服务。

与此同时,马斯克也在寻求更根本的转变,将筹码押在了自研算力的“TeraFab”项目上。一方面,推动多款自研芯片加入xAI的“AI芯片家族”;另一方面,也希望借助英特尔的先进制程技术,为xAI、SpaceX等业务打造下一代解决方案。

xAI的这段经历,给所有AI赛道的追赶者提了个醒:竞赛的下半场,决胜关键或许不再是谁能抢到更多显卡,而是谁能让每一块显卡发挥出真正的价值。从“堆规模”到“提效率”,这才是接下来真正的硬仗。

来源:https://36kr.com/p/3795874564250627
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

国产AI芯片自给率飙升 2030年有望突破八成
AI
国产AI芯片自给率飙升 2030年有望突破八成

摩根斯坦利研究报告显示,国产AI芯片自给率正经历高速增长。2021年自给率仅为10%,预计今年将跃升至41%,并有望在2030年达到86%。目前,国内已涌现出摩尔线程、壁仞科技、沐曦科技等一批GPU芯片设计公司,连同华为、寒武纪等NPU主力厂商,共同构建起国产AI芯片生态。分析指出,随着AI计算芯片

热心网友
05.15
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升
科技数码
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升

英伟达推出12GB显存版RTX5070移动GPU,与8GB版同步上市。两者均基于Blackwell架构,核心规格相同,仅显存容量不同。此举旨在缓解GDDR7芯片供应压力,为OEM提供灵活配置,加速笔记本产品布局,更大显存可更好满足游戏与AI应用需求。

热心网友
05.14
黄仁勋谈GPU保值秘诀 五年前显卡为何越用越值钱
业界动态
黄仁勋谈GPU保值秘诀 五年前显卡为何越用越值钱

随着人工智能技术进入高速发展期,全球对算力的需求呈现爆发式增长。在众多算力资源中,GPU(图形处理器)已成为最核心且最紧缺的硬件。市场热度持续攀升,甚至带动了多年前发布的旧型号GPU价格逆势上涨,形成了一股罕见的市场风潮。 近日,英伟达(NVIDIA)首席执行官黄仁勋对这一现象给出了一个生动的比喻—

热心网友
05.14
港中文AI导演系统:聊天生成多镜头电影,单GPU打造好莱坞级视频
AI
港中文AI导演系统:聊天生成多镜头电影,单GPU打造好莱坞级视频

这项由香港中文大学多媒体实验室、快手科技以及香港创新科技研究院联合开展的研究,已于2026年3月发表在计算机视觉顶级会议上,论文编号为arXiv:2603 25746v1。对技术细节感兴趣的读者,可以据此查阅完整论文。 当前的AI视频生成技术,更像是一位只会使用固定机位的摄影师。它能产出精美的单帧画

热心网友
05.14
英伟达黄仁勋谈GPU保值:五年前显卡如陈年老酒越用越值钱
科技数码
英伟达黄仁勋谈GPU保值:五年前显卡如陈年老酒越用越值钱

AI需求爆发导致GPU严重短缺,连四五年前的旧款芯片价格也持续上涨。英伟达CEO黄仁勋将此现象比作“好酒效应”,形容GPU价格随时间不降反升。全球AI数据中心高度依赖GPU算力,供需失衡推高了全产业链价格。旧款GPU需求强劲,升值速度甚至超过真正陈年佳酿,反映出市场对算力资源的极度渴求。

热心网友
05.14

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

美国将比特币列为国家安全资产对全球局势与加密市场的影响
web3.0
美国将比特币列为国家安全资产对全球局势与加密市场的影响

在全球紧张局势下,美国国防部将比特币重新定义为国家安全资产,反映出其战略价值提升。美国国库持有大量比特币,大国博弈中加密货币已成为国家安全筹码。市场普遍认为这一身份转变将增强机构需求,推动价格上涨。后续需关注美国政策动向、地缘政治变化及相关监管动态。

热心网友
05.17
Windows蓝屏代码0x00000012修复指南 内核异常解决方法详解
系统平台
Windows蓝屏代码0x00000012修复指南 内核异常解决方法详解

当Windows系统遭遇蓝屏时,那些含义不明的错误代码往往令人困扰。例如代码0x00000012 (TRAP_CAUSE_UNKNOWN),其官方解释为“内核捕获到无法识别的异常”。这就像一个笼统的系统警报,提示底层发生了问题,但并未指明具体故障点。此类错误通常不关联特定系统文件,反而更常见于新硬件

热心网友
05.17
Win10系统安装Java环境详细步骤与JDK配置指南
系统平台
Win10系统安装Java环境详细步骤与JDK配置指南

必须安装JDK并配置JA VA_HOME与Path环境变量;先下载JDK 17 21 LTS版本,安装时取消“Add to PATH”,再手动设置JA VA_HOME指向安装目录,并在Path中添加%JA VA_HOME% bin,最后用ja va -version等命令验证。 在Windows 1

热心网友
05.17
Mac图片文字提取技巧 苹果自带OCR功能使用指南
系统平台
Mac图片文字提取技巧 苹果自带OCR功能使用指南

对于Mac用户而言,从图片中提取文字其实无需额外安装第三方OCR软件。macOS系统自身就集成了强大的光学字符识别功能,它基于苹果自研的Vision框架与Core ML机器学习模型。最大的优势在于完全离线运行,所有图片处理均在本地完成,无需上传至任何云端服务器,充分保障了用户的隐私与数据安全。本文将

热心网友
05.17
Linux服务器开启TCP Keepalive防止数据库连接断开教程
系统平台
Linux服务器开启TCP Keepalive防止数据库连接断开教程

数据库长连接在静默中突然断开,是很多运维和开发都踩过的坑。你以为启用了TCP Keepalive就万事大吉?真相是,如果应用层、内核层和基础设施层的配置没有协同对齐,这个“保活”机制基本等于形同虚设。 问题的核心在于,一个完整的TCP Keepalive生效链条涉及三个环节:你的应用程序或连接池是否

热心网友
05.17