马斯克xAI十万H100超级集群Colossus深度解读_AI热点日报

马斯克xAI十万H100超级集群Colossus深度解读

类型：热点整理2026-07-04

2024年9月3日，埃隆·马斯克在X平台震撼宣布：xAI团队仅用122天便成功部署了由10万张H100 GPU组成的Colossus超级计算集群，更计划未来将其扩充至15万张H100与5万张H200。这一建设速度，令业界瞩目。近期，ServeTheHome发布了一段实地探访Colossus的独家视

2024年9月3日，埃隆·马斯克在X平台震撼宣布：xAI团队仅用122天便成功部署了由10万张H100 GPU组成的Colossus超级计算集群，更计划未来将其扩充至15万张H100与5万张H200。这一建设速度，令业界瞩目。

近期，ServeTheHome发布了一段实地探访Colossus的独家视频，首次披露了大量内部细节。本文基于该视频及公开资料，将深入剖析这座AI超级工厂的方方面面。

xAI此前一直依赖Oracle云基础设施（OCI）训练Grok模型，当时仅使用了约1.6万个Nvidia GPU。随着Grok 2的发布，其模型能力已接近GPT-4水平，而下一代Grok 3的研发已提上日程。

从数据规模推算，马斯克认为要训练出足以对标甚至超越GPT-5的Grok 3，至少需要10万张H100 GPU。然而，Oracle未能满足这一庞大需求，导致xAI订单流失。马斯克随即决定自主建设GPU集群，Colossus项目由此诞生。

集群命名同样蕴含深意。“Colossus”一词，既致敬了二战时期诞生的全球首台可编程计算机，也向1970年的经典科幻电影《巨人》表达了敬意。

Colossus第一阶段已全面竣工并投入运营。从集群设计到首次训练启动，仅耗时122天，其中10万块H100的组装仅用19天完成。对于如此量级的超级计算集群，以往通常需要数年时间。马斯克后续透露，该集群即将升级——GPU容量将翻倍，新增15万块H100与5万块下一代H200。

一个值得关注的技术决策是，Colossus采用了基于以太网的网络架构，而非传统的InfiniBand。从实际运行效果来看，这无疑是明智之选。

官方数据显示，在训练超大规模Grok模型时，Colossus实现了零应用延迟降级与零丢包，网络吞吐率稳定在95%（依托Spectrum-X拥塞控制技术）。相比之下，标准以太网在同等规模下会产生数千次流碰撞，吞吐率仅为60%。

Colossus内部每台服务器均基于NVIDIA BlueField-3 SuperNIC DPU，提供400Gbps网络连接。交换机采用Spectrum SN5600以太网交换机，支持64端口、单端口最高800Gb/s，基于Spectrum-4交换机ASIC。

Colossus的基础构建单元是Supermicro液冷机架。每个机架包含8台4U服务器，每台服务器配备8块NVIDIA H100，单机架共计64个GPU。此外，每个机架还配有一台Supermicro冷却液分配单元（CDU）及相关硬件，构成完整的GPU计算节点。

以8个机架为一组，共512个GPU，再配合网络设备，构成整个大系统中的一个子集群。整个Colossus集群大约包含200个这样的机架阵列。

每台服务器均配备独立液冷管路，连接至机架歧管，便于维护与替换。机架底部是Supermicro CDU，配有管理单元与冗余泵，可实时监控流量、温度等关键参数，并通过中央管理界面进行远程调控。在4U空间内集成如此高密度的计算能力，同时确保可维护性，并非所有厂商都能实现。

在训练过程中，除GPU外，CPU同样至关重要——数据预处理等环节离不开它。Colossus同样配备了大规模CPU计算节点，每个机架包含42台1U超微服务器。

为支持CPU与GPU高效读取训练数据，集群专门部署了远端存储集群，确保数据吞吐无瓶颈。

xAI在调试过程中发现：当10万张H100同时启动训练时，供电会出现毫秒级的微小波动。若不解决，可能引发电力基础设施故障。最终方案是：从发电机等设备向电池输入电力，再由电池平稳放电为训练任务供电，从而消除波动。

Colossus的落成，直观反映了当前科技巨头在AI超算中心建设领域的激烈竞争。除了要从NVIDIA手中争取足够的GPU订单，更棘手的制约因素在于能源。

Colossus最终选址田纳西州孟菲斯，核心原因在于当地土地资源充裕且电力供应充足。按10万张H100的规模计算，xAI至少需200兆瓦电力。在算力巅峰背后，电力、水资源等物理世界现实约束，正成为超级计算中心无法回避的硬性门槛。

来源：https://www.53ai.com/news/LargeLanguageModel/2025032357834.html

ai 人工智能

补充最近整理过的热点入口。