2024年9月3日,埃隆·马斯克在X平台震撼宣布:xAI团队仅用122天便成功部署了由10万张H100 GPU组成的Colossus超级计算集群,更计划未来将其扩充至15万张H100与5万张H200。这一建设速度,令业界瞩目。
近期,ServeTheHome发布了一段实地探访Colossus的独家视频,首次披露了大量内部细节。本文基于该视频及公开资料,将深入剖析这座AI超级工厂的方方面面。

项目起源
xAI此前一直依赖Oracle云基础设施(OCI)训练Grok模型,当时仅使用了约1.6万个Nvidia GPU。随着Grok 2的发布,其模型能力已接近GPT-4水平,而下一代Grok 3的研发已提上日程。

从数据规模推算,马斯克认为要训练出足以对标甚至超越GPT-5的Grok 3,至少需要10万张H100 GPU。然而,Oracle未能满足这一庞大需求,导致xAI订单流失。马斯克随即决定自主建设GPU集群,Colossus项目由此诞生。

集群命名同样蕴含深意。“Colossus”一词,既致敬了二战时期诞生的全球首台可编程计算机,也向1970年的经典科幻电影《巨人》表达了敬意。
核心架构
Colossus第一阶段已全面竣工并投入运营。从集群设计到首次训练启动,仅耗时122天,其中10万块H100的组装仅用19天完成。对于如此量级的超级计算集群,以往通常需要数年时间。马斯克后续透露,该集群即将升级——GPU容量将翻倍,新增15万块H100与5万块下一代H200。
网络方案:以太网替代传统InfiniBand
一个值得关注的技术决策是,Colossus采用了基于以太网的网络架构,而非传统的InfiniBand。从实际运行效果来看,这无疑是明智之选。
官方数据显示,在训练超大规模Grok模型时,Colossus实现了零应用延迟降级与零丢包,网络吞吐率稳定在95%(依托Spectrum-X拥塞控制技术)。相比之下,标准以太网在同等规模下会产生数千次流碰撞,吞吐率仅为60%。
Colossus内部每台服务器均基于NVIDIA BlueField-3 SuperNIC DPU,提供400Gbps网络连接。交换机采用Spectrum SN5600以太网交换机,支持64端口、单端口最高800Gb/s,基于Spectrum-4交换机ASIC。
液冷GPU机架
Colossus的基础构建单元是Supermicro液冷机架。每个机架包含8台4U服务器,每台服务器配备8块NVIDIA H100,单机架共计64个GPU。此外,每个机架还配有一台Supermicro冷却液分配单元(CDU)及相关硬件,构成完整的GPU计算节点。
以8个机架为一组,共512个GPU,再配合网络设备,构成整个大系统中的一个子集群。整个Colossus集群大约包含200个这样的机架阵列。
每台服务器均配备独立液冷管路,连接至机架歧管,便于维护与替换。机架底部是Supermicro CDU,配有管理单元与冗余泵,可实时监控流量、温度等关键参数,并通过中央管理界面进行远程调控。在4U空间内集成如此高密度的计算能力,同时确保可维护性,并非所有厂商都能实现。
计算与存储机架
在训练过程中,除GPU外,CPU同样至关重要——数据预处理等环节离不开它。Colossus同样配备了大规模CPU计算节点,每个机架包含42台1U超微服务器。
为支持CPU与GPU高效读取训练数据,集群专门部署了远端存储集群,确保数据吞吐无瓶颈。

特斯拉Megapacks保障电力供应
xAI在调试过程中发现:当10万张H100同时启动训练时,供电会出现毫秒级的微小波动。若不解决,可能引发电力基础设施故障。最终方案是:从发电机等设备向电池输入电力,再由电池平稳放电为训练任务供电,从而消除波动。

深远影响
Colossus的落成,直观反映了当前科技巨头在AI超算中心建设领域的激烈竞争。除了要从NVIDIA手中争取足够的GPU订单,更棘手的制约因素在于能源。
Colossus最终选址田纳西州孟菲斯,核心原因在于当地土地资源充裕且电力供应充足。按10万张H100的规模计算,xAI至少需200兆瓦电力。在算力巅峰背后,电力、水资源等物理世界现实约束,正成为超级计算中心无法回避的硬性门槛。
