马斯克55万英伟达GPU利用率仅11% 大型AI算力闲置引关注
AI时代,大家都在疯狂堆砌GPU,但堆起来之后呢?最近《The Information》的一篇报道,把马斯克旗下xAI的算力家底和实际效率摊在了桌面上,结果让人有些意外。

目前,xAI在孟菲斯和巨像两大数据中心集群里,运营着大约55万块英伟达H100和H200 GPU,部分还采用了液冷散热。尽管这属于上一代产品(早于最新的Blackwell系列),但数量之巨已然令人咋舌。
然而,拥有如此庞大的硬件规模,xAI的模型算力利用率却只有大约11%。这意味着什么呢?打个比方,这相当于50万块GPU里,真正在干活的算力只顶得上6万块的水平。问题到底出在哪?
规模越大,协调越难
首先,问题的根源在于规模本身。对于几千块GPU的中等规模部署,多节点间的协调还算可控。可一旦集群规模膨胀到数十万块,情况就完全不同了。设备的空闲时间会像滚雪球一样累积,导致整体利用率断崖式下跌。xAI目前暴露出的,正是其软件栈在应对这种超级规模时的一系列不一致性问题。
在超大规模集群里,GPU芯片本身的计算速度很快,真正的瓶颈往往在于其他地方:一是高带宽内存的数据读写速度,二是成千上万台服务器之间网络通信的开销。只要数据传输出现哪怕微小的延迟或网络拥堵,整个集群的GPU就不得不“原地待命”,等待数据就位。
另一方面,AI模型的训练过程本身也是间歇性的。GPU在全力计算时固然满载,但当研究人员停下来分析结果、调整参数或处理数据管道时,大量设备就不可避免地进入闲置状态。
行业潜规则:算力浪费与“刷数据”
当然,11%这个数字确实偏低,但报道也揭示了一个行业内心照不宣的现实:算力浪费是普遍现象。甚至有些大厂的研究人员,为了应对管理层的考核压力,或者担心闲置的GPU配额被其他团队抢走,会故意重复运行一些意义不大的训练任务,以此来“刷高”利用率报表。这么做,无非是为了保住自己团队的资源配额。

所以说,这并非xAI一家独有的难题,而是整个AI行业在追求极致规模时,共同面临的结构性挑战。要让如此庞大的基础设施高效运转,涉及的优化技能横跨数据、算法、模型、计算内核乃至人机与智能体间的交互,工程难度极高。
头部玩家的效率标杆
不过,挑战虽大,并非无解。一些科技巨头通过深度优化其大规模基础设施堆栈,已经实现了相当可观的效率。例如,Meta和谷歌就是典范,他们的GPU利用率据称分别达到了43%和46%。
xAI的困境清晰地表明,在当前的AI军备竞赛中,“买到GPU”只是入场券,“用好GPU”才是真正的核心竞争力。当硬件规模超出了现有软件架构的调度能力时,堆再多的卡也可能事倍功半。
下半场竞赛:从拼硬件到拼优化
面对问题,xAI已经在行动,设定了将利用率提升至50%的目标。虽然没有确切时间表,但其改进核心将聚焦于基础设施与软件堆栈的优化。有分析指出,随着未来工作负载逐步迁移到为“智能体AI”需求设计的硬件平台,xAI庞大的GPU集群甚至有可能对外提供租赁服务。
与此同时,马斯克也在寻求更根本的转变,将筹码押在了自研算力的“TeraFab”项目上。一方面,推动多款自研芯片加入xAI的“AI芯片家族”;另一方面,也希望借助英特尔的先进制程技术,为xAI、SpaceX等业务打造下一代解决方案。
xAI的这段经历,给所有AI赛道的追赶者提了个醒:竞赛的下半场,决胜关键或许不再是谁能抢到更多显卡,而是谁能让每一块显卡发挥出真正的价值。从“堆规模”到“提效率”,这才是接下来真正的硬仗。
相关攻略
摩根斯坦利研究报告显示,国产AI芯片自给率正经历高速增长。2021年自给率仅为10%,预计今年将跃升至41%,并有望在2030年达到86%。目前,国内已涌现出摩尔线程、壁仞科技、沐曦科技等一批GPU芯片设计公司,连同华为、寒武纪等NPU主力厂商,共同构建起国产AI芯片生态。分析指出,随着AI计算芯片
英伟达推出12GB显存版RTX5070移动GPU,与8GB版同步上市。两者均基于Blackwell架构,核心规格相同,仅显存容量不同。此举旨在缓解GDDR7芯片供应压力,为OEM提供灵活配置,加速笔记本产品布局,更大显存可更好满足游戏与AI应用需求。
随着人工智能技术进入高速发展期,全球对算力的需求呈现爆发式增长。在众多算力资源中,GPU(图形处理器)已成为最核心且最紧缺的硬件。市场热度持续攀升,甚至带动了多年前发布的旧型号GPU价格逆势上涨,形成了一股罕见的市场风潮。 近日,英伟达(NVIDIA)首席执行官黄仁勋对这一现象给出了一个生动的比喻—
这项由香港中文大学多媒体实验室、快手科技以及香港创新科技研究院联合开展的研究,已于2026年3月发表在计算机视觉顶级会议上,论文编号为arXiv:2603 25746v1。对技术细节感兴趣的读者,可以据此查阅完整论文。 当前的AI视频生成技术,更像是一位只会使用固定机位的摄影师。它能产出精美的单帧画
AI需求爆发导致GPU严重短缺,连四五年前的旧款芯片价格也持续上涨。英伟达CEO黄仁勋将此现象比作“好酒效应”,形容GPU价格随时间不降反升。全球AI数据中心高度依赖GPU算力,供需失衡推高了全产业链价格。旧款GPU需求强劲,升值速度甚至超过真正陈年佳酿,反映出市场对算力资源的极度渴求。
热门专题
热门推荐
在全球紧张局势下,美国国防部将比特币重新定义为国家安全资产,反映出其战略价值提升。美国国库持有大量比特币,大国博弈中加密货币已成为国家安全筹码。市场普遍认为这一身份转变将增强机构需求,推动价格上涨。后续需关注美国政策动向、地缘政治变化及相关监管动态。
当Windows系统遭遇蓝屏时,那些含义不明的错误代码往往令人困扰。例如代码0x00000012 (TRAP_CAUSE_UNKNOWN),其官方解释为“内核捕获到无法识别的异常”。这就像一个笼统的系统警报,提示底层发生了问题,但并未指明具体故障点。此类错误通常不关联特定系统文件,反而更常见于新硬件
必须安装JDK并配置JA VA_HOME与Path环境变量;先下载JDK 17 21 LTS版本,安装时取消“Add to PATH”,再手动设置JA VA_HOME指向安装目录,并在Path中添加%JA VA_HOME% bin,最后用ja va -version等命令验证。 在Windows 1
对于Mac用户而言,从图片中提取文字其实无需额外安装第三方OCR软件。macOS系统自身就集成了强大的光学字符识别功能,它基于苹果自研的Vision框架与Core ML机器学习模型。最大的优势在于完全离线运行,所有图片处理均在本地完成,无需上传至任何云端服务器,充分保障了用户的隐私与数据安全。本文将
数据库长连接在静默中突然断开,是很多运维和开发都踩过的坑。你以为启用了TCP Keepalive就万事大吉?真相是,如果应用层、内核层和基础设施层的配置没有协同对齐,这个“保活”机制基本等于形同虚设。 问题的核心在于,一个完整的TCP Keepalive生效链条涉及三个环节:你的应用程序或连接池是否





