你能想象吗?全球首富埃隆·马斯克(Elon Musk)用了短短122天,就把一栋旧家电工厂变成了世界上规模最大、速度最快的人工智能超级计算机。他没有走企业建数据中心的老路,而是用一种近乎“暴力”的效率,为他的人工智能公司xAI打造了这台名为“巨像”(Colossus)的算力巨兽。这一举动,不仅让OpenAI、微软、谷歌这些巨头瞬间紧张起来,也彻底拉开了超大规模数据中心军备竞赛的新序幕。

1 “巨像”在两个方面惊呆对手
今年10月的一个晴天,美国田纳西州孟菲斯市中心附近,一架螺旋桨飞机在一栋被绿草坪环绕的工业建筑上空盘旋。机上的乘客不是游客,而是来自一家竞对企业的侦察人员。他们正在记录这栋原属于家电制造商Electrolux的厂房——如今,这里藏着全球最大的AI训练服务器集群。
据知情人士透露,这次侦察飞行暴露的,是人工智能领域最烧钱、最激烈的一场竞赛。对手们试图看清:马斯克究竟是怎么用卡车把多台燃气涡轮机拉到现场,又是如何解决超大规模服务器散热难题的。
说到底,这背后赌的就是一个简单信念:服务器集群越大,训练出的AI越强。2022年末,ChatGPT引爆科技行业后,各方对超大规模算力的争夺彻底失控。马斯克虽然曾是OpenAI的联合创始人,但他早已另起炉灶,决心用另一种速度进场。
“巨像”让对手在两个方面瞪圆了眼睛:一是它10万颗GPU的规模,远超Meta等科技巨头此前打造的同类集群;二是xAI用122天就干完了通常三四年才能完成的工程。
2 四年建设周期缩短至122天
将10万颗GPU整合成一台超级计算机,本身就是个疯狂的想法。光是供电和芯片之间的网络带宽瓶颈,就足以让绝大多数企业望而却步。但xAI不仅完成了这个目标,还快得离谱。
英伟达CEO黄仁勋在播客里直言:“现在大家肯定都睡不着了。说实话,全世界也就只有马斯克能搞出这种事。他对工程、建筑、大型系统构建和资源调配的理解,确实无人能及。”
马斯克为什么能这么快?原因之一是——他省略了不少关键步骤。比如,他在电网还没能提供足够电力的情况下,就启动了建设。这种打破常规的做法,其实就是他的一向风格。当年在特斯拉,他为了绕开加州工厂的繁琐许可,直接在停车场搭了一条Model 3生产线。在SpaceX,他更是反复催促工程师精简零件,哪怕是民用级别的东西,只要够用就用。
xAI的人工智能工具目前还落后于OpenAI,但马斯克建超算的速度已经让OpenAI的CEO山姆·奥特曼高度警觉。内部消息透露,看到马斯克的帖子后,奥特曼甚至和微软基础设施高层发生了争执。他担心xAI会更快拥有比OpenAI更强的超级计算机,这也促使OpenAI首次开始考虑和微软之外的其他公司合作。目前一个备选方案正在得克萨斯州阿比林的一片荒芜平地上推进,预计明年部署10万颗芯片。

得克萨斯州阿比林的一处数据中心建设现场,预计明年将部署拥有10万个芯片的OpenAI超级计算机
项目进展同样迅速。现场预制的组件大多在外面造好,到现场直接组装,墙都还没完全砌起来。或许很快,连阿比林和孟菲斯这些规模,也会显得渺小。包括微软在内的巨头,已经开始讨论建设拥有数百万个GPU的数据中心,每个项目的成本预计超过1000亿美元。数据中心市场就这么大,每个人都在盯着对手的一举一动。
3 建设“计算超级工厂”
今年早些时候,马斯克开始着手整合创立xAI所需的庞大算力。当时他还在租用甲骨文的GPU,用来训练Grok的初始版本。要进一步提升性能,他需要扩充算力资源。
今年5月,他与潜在的xAI投资者开了场视频会,描述了打造全球最大超级计算机的愿景。他把这台未来的机器称为“计算超级工厂”,就像特斯拉在全球布局的超级工厂一样。会上,马斯克和xAI不足12人的团队详细解释了如何把10万颗英伟达H100集成到一个集群中。屏幕上的图表清楚地显示:xAI的建造速度将是大多数企业的五倍。他承诺,将亲自监督数据中心如期交付。
然而,他当时还没决定是和云服务商合作,还是自己单干。数周后,甲骨文高层与他视频会议,探讨合作方案。马斯克提议,由甲骨文为xAI打造超算,这样xAI就能成为甲骨文的头部客户。但问题是,马斯克看中的孟菲斯Electrolux旧工厂,电力不足,无法满足他计划安装的芯片数量。甲骨文的高管坦承,无法按马斯克期望的速度完成建设。这让马斯克很快感到失望和沮丧,最终他决定甩开甲骨文,亲自掌舵。
他在社交媒体上写道:“甲骨文无疑是一家伟大的公司……但当我们的命运取决于成为迄今为止最快的公司时,我们必须亲自掌舵,而不是当乘客坐在后座。”

孟菲斯电器设备制造商Electrolux的工厂如今成为xAI超级计算机的所在地
4 打破常规,采用临时供电计划
为了实现预期时间,马斯克催着孟菲斯当地官员以前所未有的速度批准项目。孟菲斯方面也表现积极,大孟菲斯商会主席泰德·汤森说:“我们不分昼夜地工作,随时都在接收信息和电话,力求展现和xAI一样的干劲和效率。”
6月初,汤森公开宣布选址孟菲斯。几周内,xAI团队迅速拆除了旧工厂,腾出空间安装英伟达GPU的机架,并部署了先进的水冷系统。然而,电力供应成了最大的障碍——工厂的电力根本不够。
但马斯克总有办法。在等待当地电力机构批准增加100兆瓦电力期间,他直接引入移动天然气涡轮机作为临时补充。田纳西河谷管理局也在上周通过了申请。不过,这一举动很快引发了当地环保组织抗议——他们指责xAI未经许可擅自运行涡轮机,造成空气污染。南方环境法中心的高级律师甚至表示,这就像在未获批的情况下偷偷建发电厂,实在令人震惊。
与此同时,不少数据中心高管指出,马斯克能这么快完成项目,还有另一个原因——这台超算可能完全不需要经过合规性测试,因为它只用于xAI自己,不对外出租。相比之下,微软在把服务器交给OpenAI或其他客户前,必须经过多次安全测试,确保正常运行时间和隐私标准。而xAI显然不需要这些认证。
当然,质疑也不少。多位数据中心高管认为,把旧工厂改造成适合GPU服务器和液体冷却的设施极其困难。过去几个月,项目也多次中断。但这些问题似乎没拖慢xAI的脚步。马斯克和英伟达表示,在首个服务器机架进入数据中心仅19天后,他们就已经开始训练下一代Grok模型。
长期投资马斯克多家公司的安东尼奥·格拉西斯表示:“xAI正在从最基本的原则出发,重新思考整个建数据中心的流程,努力让它更经济、更高效、更快捷。我在特斯拉、SpaceX都看到过类似的情况,几十名工程师在马斯克的带领下,共同追求最优、最有效的系统。”
5 其他科技巨头紧紧追赶
今年夏天,随着马斯克在超算领域的进展消息传开,亚马逊、微软、谷歌的高管们纷纷致电英伟达,问同一个问题:他是怎么做到这么快的?不仅如此,Meta等公司的高管也联系了一家小型云提供商,探询能否用比自己建设更快的速度拿到算力容量。
这些公司对孟菲斯项目的渴望愈发强烈。数据中心和云计算业务的管理人员仔细研究设施的图像,试图找出设计秘密。上个月,一位行业分析师在参观后还在YouTube上发布了视频。

xAI孟菲斯数据中心内部
与此同时,与xAI谈判破裂后,甲骨文迅速与OpenAI达成了提供算力的协议。新的数据中心将落户得克萨斯州阿比林,甲骨文已经与创业公司Crusoe和Lancium签署了开发协议。上个月,Crusoe筹集了超过30亿美元资金,用于推进初期建设。这个数据中心同样将配备10万颗英伟达最新的GB200 GPU。
与马斯克在孟菲斯的项目一样,阿比林的项目也在全力加速。负责建设的承包商DPR公司的阿塞洛表示,这是他参与过的最快的项目之一。从3月开始讨论设计,到6月就已破土动工。几周前,工地上正紧锣密鼓地砍伐树木、浇筑混凝土。为了确保按时供电,OpenAI甚至要求合作伙伴考虑使用天然气涡轮机作为备用方案。
在最近一次现场参观中,当被问及为什么数据中心快速建设会引起这么大关注时,一位承包商回答得很直接:“谁能更快地造出自己的超级计算机,谁就可以统治世界。” 这才是这场竞赛最朴素、也最残酷的真相。
