智谱ZCube颠覆传统组网技术 同等GPU性能提升15%
AI发展的历程,至今仍带着一股野蛮生长的气息:在这个阶段,规模似乎就是一切。

这条路确实被证明是有效的。从千卡到万卡,算力规模的每一次跃升,都直接支撑了大模型从GPT-4到DeepSeek V4、GLM-5的持续进化与性能狂飙。
然而,一个现实问题常常被忽略:当GPU硬件的规模膨胀到一定程度时,将这些算力单元连接起来的网络链路,就不再是一个可以忽略不计的“常量”,而是一个决定整体性能上限的关键“变量”。
2026年5月5日,OpenAI联合NVIDIA、AMD、Intel、Microsoft、Broadcom五家巨头,通过开放计算项目(OCP)向全行业发布了MRC(Multipath Reliable Connection)协议。这是一种专为超大规模AI集群设计的网络传输协议,目前已部署在OpenAI最大的NVIDIA GB200超算集群中,用于训练ChatGPT等前沿模型。
MRC的核心思路在于,将数据传输分散到数百条路径上并发进行,并能在微秒级时间内绕过链路故障,旨在从根本上解决大规模GPU集群的网络通信瓶颈。
几乎在同一时间,另一条重要的技术路线也取得了突破性进展。智谱率先在其GLM-5.1线上生产集群中,完成了新一代组网架构ZCube的规模化落地。
ZCube架构曾发表于网络领域顶会ACM SIGCOMM 2025,并被评价为“significantly change the way we think about and understand networking”(显著改变整个行业对网络的认知方式)。此次是该项技术首次大规模运用于生产推理集群,由智谱联合驭驯网络共同负责网络架构的升级与优化,组网架构优化基于锐捷网络交换机实现。
在新一代组网架构下,集群在不新增任何GPU、不修改任何应用代码的前提下,实现了三项关键指标的提升:推理吞吐提升了15%,首Token响应的尾延迟(TTFT P99)下降了40.6%,交换机与光模块的硬件成本减少了三分之一。
不加一块GPU,算力瞬间多出15%。这或许揭示了一个正在发生的趋势:在单纯扩大GPU规模之外,网络,已经成为超大规模AI基础设施的下一个主战场。
ZCube技术解读:从架构层面消除拥塞
推理时代的流量,和训练时代截然不同
传统互联网时代的数据中心流量,其特点是“统计均匀”的。因此,业界普遍采用的Fat-Tree/Clos架构正是基于这一假设设计的:通过多层交换机的堆叠来扩展规模,并依赖ECMP(等价多路径路由)在多条路径间分配流量,这套方案在过去效果显著。AI训练集群也基本沿用了这套架构,因为训练阶段的通信模式相对固定和规整。
然而,大模型推理带来了一种全新的流量范式。随着Prefill(处理用户输入上下文)与Decode(逐Token生成输出)分离部署成为主流,集群内部的数据传输呈现出高度的动态不对称性。Prefill节点处理长短不一的输入上下文,Decode节点则负责持续生成Token,两类节点之间需要频繁传递KV Cache。不同请求的上下文长度差异可达数十倍,处理时间随之剧烈变化,导致KV Cache数据在GPU之间的流向几乎毫无规律可循。
在采用传统ROFT架构的集群中,这种源-目的不对称性导致同一台机器上不同网卡承担的KV Cache传输负载差异巨大。这使得ROFT架构中的rail映射不再天然等价于负载均衡,反而容易将流量集中推向少数几台Leaf交换机和链路上,形成局部热点。
问题的根源在于,Clos/ROFT架构对推理流量产生了一类特殊的拥塞。智谱在技术报告中将其明确区分为两类:
- 不可避免的拥塞:例如多个GPU同时向同一目的地发送数据,在最后一跳链路上必然产生竞争。这类拥塞由物理规律决定,通常依赖拥塞控制、流量整形等协议层机制来缓解。
- 可避免的拥塞:由拓扑结构和流量映射方式导致。流量被拓扑关系天然地推向同几台交换机和同几条链路,即使总带宽充足,也会形成局部瓶颈。某些Leaf交换机的部分出口队列深度持续高位,频繁触发PFC(Priority Flow Control)反压,进一步将拥塞从局部扩散到整条链路,从而放大尾时延、压低整体吞吐。这类拥塞的本质是架构设计问题,仅靠调参和协议优化无法根治。
过去,业界应对网络拥塞的主流思路集中在协议层:无论是自适应路由、包喷洒,还是OpenAI刚发布的MRC,本质上都是在拥塞发生后进行补救或绕行。
而ZCube选择了一条不同的路:从架构层面,直接消除第二类“可避免拥塞”产生的根源,让它“不该发生的就不发生”。
ZCube的三重设计逻辑
从组网架构图来看,ZCube打破了Clos架构中层次化堆叠交换机的传统思路,采用了一种完全扁平化的GPU服务器互联方式。
第一层:取消分层,全网扁平化。传统Clos架构由Spine层和Leaf层组成,数据在GPU之间传输需要“上行到Spine,再下行到Leaf”,跨层转发本身就会引入额外延迟和拥塞风险。ZCube取消了Spine层交换机,将所有Leaf交换机按序号奇偶分为两组,两组之间采用完全二部图互联(即每台奇数交换机与所有偶数交换机相连)。这意味着全网任意两台GPU之间,仅需经过两台交换机即可互达,网络直径固定为2跳。这个设计巧妙地介于单层交换机组网(1跳,但规模受限)和双层Clos(3跳,延迟较高)之间。
第二层:单轨+多轨混合接入,实现理想负载均衡。这是ZCube设计中最精妙的部分。每张GPU网卡拥有两个端口,分别以两种截然不同的方式接入两组交换机:第一个端口采用“多轨”方式,即相同编号的GPU连接到同一台奇数交换机;第二个端口采用“单轨”方式,即连续编号的GPU连接到同一台偶数交换机。
这种“一张网卡,两种接法”的拓扑设计,带来了一个关键特性:全网任意两张GPU之间有且仅有一条最优路径。多路径选路是传统架构拥塞的重要来源,因为多条路径意味着负载均衡策略需要做选择,而选择就可能出错,导致流量集中。ZCube用唯一的确定性路径,彻底消除了这一不确定性。
说得更直白些:在ROFT架构下那些会在交换机之间发生冲突、“堵车”的流量,在ZCube架构下可以独享整条网络路径。
第三层:更低成本,更强扩展性,更高容错。ZCube在实现性能提升的同时,反而降低了硬件成本。由于取消了Spine层,在构建相同规模的集群时,ZCube比Clos/ROFT架构大约能减少三分之一的交换机和光模块数量。
在扩展性方面,ZCube同样表现出色。以当前主流的400Gb/s网络配置计算,ZCube仅用一层交换机即可构建连接16384张GPU的扁平网络。而传统ROFT架构要实现同等规模,需要三层交换机。如果采用下一代102.4Tbps交换机和四端口ConnectX-8网卡,ZCube可支持的GPU规模更可达65536张。
容错性方面也有优势。由于ZCube全网GPU之间不存在硬性隔离平面,在给定链路故障率下,任意一对GPU之间通信路径不可达的概率,比传统双平面Clos网络要低50%以上。
可以这样类比:传统Clos架构像一座复杂的多层立交桥系统,车流需要频繁上下匝道,高峰期特定匝道必然拥堵,且立交桥的某一层出故障会影响大量通行。而ZCube则像一张经过精密数学优化的平面路网,每辆车都有一条唯一且最短的路径直达目的地,任何路段的车流量都被预先均匀分摊,从规划层面就消除了拥堵发生的条件。
实验验证:同样的硬件,多出15%的算力
ZCube真正引人注目的地方在于,它已经在智谱千卡级的GLM-5.1 coding推理集群中,完成了完整的生产环境验证。
实验设置非常清晰,只改变一个变量:将集群的传统ROFT架构替换为ZCube架构。GPU型号、软件栈、业务代码均保持不变。结果如下:
- 推理吞吐提升15%以上:同样的硬件投入,每秒能多响应15%的API请求。
- TTFT P99下降40.6%:首Token响应的尾延迟大幅降低,用户体验更流畅。
- 交换机与光模块成本减少三分之一:据估算,在万卡规模集群中,仅网络硬件一项即可节省投资约2.1亿至6.4亿元。
更关键的是,这项升级的边际成本极低,纯粹是组网架构的替换。在GPU供应持续紧张、价格居高不下的当下,一种不依赖额外硬件堆叠就能显著提升系统整体效率的方案,其产业价值不言而喻。
AI基础设施的价值重心正在迁移
将ZCube的落地与OpenAI MRC协议的发布,放在2026年AI基础设施的大背景下审视,会发现它们共同指向一个更深层的行业拐点:AI基础设施的价值重心,正在从单纯的“算力”获取,向“系统效率”的极致挖掘迁移。
核心逻辑:让已有的GPU跑得更好
过去三年,大模型公司的基础设施策略可以用一个字概括:买。抢GPU、抢算力卡、抢机柜、甚至抢能源。这套逻辑在模型从零到一的阶段是成立的,算力规模直接决定了能训练多大的模型、能支撑多少用户。
但到了现阶段,这个逻辑开始遇到明显的阻力。
首先,GPU的供应仍然紧张。尽管英伟达持续扩产,但需求的增速远超供给,尤其是高端推理卡的交付周期依然以季度计。其次,算力采购的经济模型正在恶化。GPU价格居高不下,而大模型API的定价竞争日趋激烈,Token单价持续走低,毛利空间被两端挤压。最后,单纯堆叠GPU的边际收益在递减。当集群规模从千卡扩展到万卡,新增GPU的算力并不能被线性释放,网络、存储等系统瓶颈会愈发突出。
在这一趋势下,OpenAI的MRC和智谱的ZCube,恰好代表了协议层和架构层两条互补的技术路径。两者高度协同,当推理集群规模继续向十万卡甚至更大规模演进时,这种“架构层无拥塞设计 + 协议层强容错机制”的组合,或许将成为超大规模AI集群的标配。
产业链的结构性变化
回顾历史,英伟达在2019年以69亿美元收购Mellanox,将InfiniBand技术纳入其AI算力版图。此后,数据中心网络市场几乎被InfiniBand垄断了AI场景的高端需求。
然而,当行业发展进入新阶段,多重力量正在打破这一格局。
一方面,超以太网联盟(UEC)标准快速推进,正从协议层面为以太网补齐AI场景所需的低延迟和高可靠能力。另一方面,据TrendForce研究报告,全球AI专用光收发模块市场已进入高速成长期,预计将从2025年的165亿美元增至2026年的260亿美元,增幅超过57%。国金证券研报也指出,随着推理需求驱动算力从通用GPU向专用ASIC演进,ASIC芯片在网络接口设计上天然倾向于采用开放的以太网标准,这也在推动网络架构从专有协议向开放标准迁移。
ZCube的出现,进一步加速了这一进程。它对交换机层级的要求从传统的三层降低到了一层,对高端Spine交换机的依赖大幅降低,转而对Leaf交换机的端口密度提出了更高要求。
这意味着,未来AI集群组网的采购逻辑将发生结构性变化:需求从“少量高端交换机 + 大量中端交换机”的金字塔结构,转向“大量高密度交换机 + 更高速光模块”的扁平化结构。
尾声
网络架构创新的投入产出比,可能远超大多数人的直觉。
在GPU价格高企、算力供给偏紧的大环境下,多数公司的注意力仍然集中在“如何获得更多GPU”上。但ZCube用真实的生产数据证明,在GPU资源不变的前提下,纯粹通过网络架构的升级,就能释放出15%的额外有效算力,同时节省三分之一的网络硬件成本。如果将这一比例外推到万卡甚至十万卡规模,网络优化所释放的价值将远超一般认知。
网络瓶颈还有一个被广泛低估的特性:它会随着集群规模呈指数级加剧。集群规模翻倍,GPU间通信的复杂度和拥塞发生的概率及影响,可能会增长数倍。这意味着,像ZCube这类架构级创新的价值,将随着推理集群的持续扩张而加速显现。
对于正在加速扩建AI基础设施的云厂商、模型公司与智算中心而言,现在或许是一个重新审视组网方案的关键时刻。AI算力竞赛的下半场,胜负手可能就取决于那张“看不见的网”。
相关攻略
在大模型推理集群的部署中,网络架构正成为一个越来越关键的瓶颈。传统的Clos架构在面对PD分离(预填充与解码分离)带来的动态、不对称流量时,常常力不从心,结构性拥塞和PFC反压问题频发。有没有一种方法,能从网络拓扑的根子上解决这个问题?智谱AI联合驭驯网络与清华大学推出的ZCube,给出了一个颇具碘
大模型推理的浪潮正全面推动AI基础设施栈的革新。其中,网络架构的创新已成为释放昂贵硬件算力、提升系统整体经济性的核心路径。近期,一项由智谱AI、驭驯网络与清华大学合作的研究,实现了从理论到生产应用的重要突破。 2025年9月,其关于ZCube网络架构的研究成果已在网络领域顶级会议ACM SIGCOM
AI发展的历程,至今仍带着一股野蛮生长的气息:在这个阶段,规模似乎就是一切。 这条路确实被证明是有效的。从千卡到万卡,算力规模的每一次跃升,都直接支撑了大模型从GPT-4到DeepSeek V4、GLM-5的持续进化与性能狂飙。 然而,一个现实问题常常被忽略:当GPU硬件的规模膨胀到一定程度时,将这
在大模型推理集群的部署中,网络架构常常成为那个“看不见的瓶颈”。尤其是当计算与存储分离(PD分离)成为主流选择后,跨节点传输KV Cache所产生的动态、不对称流量,很容易在传统的Clos网络结构中形成局部热点,引发拥塞和性能抖动。有没有一种方法,能从网络拓扑的根源上解决这个问题?最近,由智谱AI、
零一万物与AMD联合发布Cube01智算设备,旨在为企业提供本地化AI算力解决方案。该设备将云端算力转化为可持有的私有资产,确保数据安全并实现高效持续运营。它降低了中小企业的使用门槛,助力掌握算力主权,推动组织向多智能体协同转型,加速AI从工具智能迈向组织智能的演进。
热门专题
热门推荐
加密货币市场突遭重挫:深度解析与应对策略 近期加密货币市场重挫,比特币(BTC)一度跌超13%,以太坊(ETH)跌幅更是一度超过20%,投资者情绪高度紧张,市场波动剧烈。 主要币种跌幅概览 这轮下跌来得又快又猛,各主要币种的“受灾”情况可谓一目了然。具体来看: 比特币(BTC):作为市场风向标,短时
10月11日,加密货币市场经历剧烈波动,单日爆仓金额与人数双双突破历史纪录。市场行情极端变化导致大量杠杆交易者被强制平仓,凸显了加密货币投资的高风险特性。这一事件再次引发对市场波动性与风险管理的广泛关注。
过去24小时内,加密货币市场剧烈波动,导致全网大量交易者仓位被强制平仓。数据显示,爆仓人数高达162万,涉及金额巨大。市场普遍认为,此次暴跌与多重因素相关,包括宏观经济预期变化、监管政策不确定性以及部分大型投资者抛售行为。这一事件再次凸显了加密货币市场的高风险特性。
加密货币市场经历约160亿美元清算冲击后进入缓慢筑底阶段。高杠杆集中、价格波动加剧及恐慌情绪扩散引发连锁清算。比特币与以太坊反弹空间有限;瑞波币抗跌但波动加大;Solana受冲击明显。投资者应控制杠杆、分批建仓并关注市场动态。
加密货币市场剧烈波动,过去24小时内全网爆仓金额升至191亿美元,创下历史新高。市场多空博弈激烈,杠杆交易者大量被强制平仓,凸显了高杠杆交易在极端行情中面临的巨大风险。





