智谱ZCube颠覆传统组网技术同等GPU性能提升15%

首页

AI资讯

热心网友

转载

2026-05-21

AI发展的历程，至今仍带着一股野蛮生长的气息：在这个阶段，规模似乎就是一切。

推翻二十年组网逻辑，智谱落地ZCube，让同样的GPU多干15%的活

这条路确实被证明是有效的。从千卡到万卡，算力规模的每一次跃升，都直接支撑了大模型从GPT-4到DeepSeek V4、GLM-5的持续进化与性能狂飙。

然而，一个现实问题常常被忽略：当GPU硬件的规模膨胀到一定程度时，将这些算力单元连接起来的网络链路，就不再是一个可以忽略不计的“常量”，而是一个决定整体性能上限的关键“变量”。

2026年5月5日，OpenAI联合NVIDIA、AMD、Intel、Microsoft、Broadcom五家巨头，通过开放计算项目（OCP）向全行业发布了MRC（Multipath Reliable Connection）协议。这是一种专为超大规模AI集群设计的网络传输协议，目前已部署在OpenAI最大的NVIDIA GB200超算集群中，用于训练ChatGPT等前沿模型。

MRC的核心思路在于，将数据传输分散到数百条路径上并发进行，并能在微秒级时间内绕过链路故障，旨在从根本上解决大规模GPU集群的网络通信瓶颈。

几乎在同一时间，另一条重要的技术路线也取得了突破性进展。智谱率先在其GLM-5.1线上生产集群中，完成了新一代组网架构ZCube的规模化落地。

ZCube架构曾发表于网络领域顶会ACM SIGCOMM 2025，并被评价为“significantly change the way we think about and understand networking”（显著改变整个行业对网络的认知方式）。此次是该项技术首次大规模运用于生产推理集群，由智谱联合驭驯网络共同负责网络架构的升级与优化，组网架构优化基于锐捷网络交换机实现。

在新一代组网架构下，集群在不新增任何GPU、不修改任何应用代码的前提下，实现了三项关键指标的提升：推理吞吐提升了15%，首Token响应的尾延迟（TTFT P99）下降了40.6%，交换机与光模块的硬件成本减少了三分之一。

不加一块GPU，算力瞬间多出15%。这或许揭示了一个正在发生的趋势：在单纯扩大GPU规模之外，网络，已经成为超大规模AI基础设施的下一个主战场。

ZCube技术解读：从架构层面消除拥塞

推理时代的流量，和训练时代截然不同

传统互联网时代的数据中心流量，其特点是“统计均匀”的。因此，业界普遍采用的Fat-Tree/Clos架构正是基于这一假设设计的：通过多层交换机的堆叠来扩展规模，并依赖ECMP（等价多路径路由）在多条路径间分配流量，这套方案在过去效果显著。AI训练集群也基本沿用了这套架构，因为训练阶段的通信模式相对固定和规整。

然而，大模型推理带来了一种全新的流量范式。随着Prefill（处理用户输入上下文）与Decode（逐Token生成输出）分离部署成为主流，集群内部的数据传输呈现出高度的动态不对称性。Prefill节点处理长短不一的输入上下文，Decode节点则负责持续生成Token，两类节点之间需要频繁传递KV Cache。不同请求的上下文长度差异可达数十倍，处理时间随之剧烈变化，导致KV Cache数据在GPU之间的流向几乎毫无规律可循。

在采用传统ROFT架构的集群中，这种源-目的不对称性导致同一台机器上不同网卡承担的KV Cache传输负载差异巨大。这使得ROFT架构中的rail映射不再天然等价于负载均衡，反而容易将流量集中推向少数几台Leaf交换机和链路上，形成局部热点。

问题的根源在于，Clos/ROFT架构对推理流量产生了一类特殊的拥塞。智谱在技术报告中将其明确区分为两类：

不可避免的拥塞：例如多个GPU同时向同一目的地发送数据，在最后一跳链路上必然产生竞争。这类拥塞由物理规律决定，通常依赖拥塞控制、流量整形等协议层机制来缓解。
可避免的拥塞：由拓扑结构和流量映射方式导致。流量被拓扑关系天然地推向同几台交换机和同几条链路，即使总带宽充足，也会形成局部瓶颈。某些Leaf交换机的部分出口队列深度持续高位，频繁触发PFC（Priority Flow Control）反压，进一步将拥塞从局部扩散到整条链路，从而放大尾时延、压低整体吞吐。这类拥塞的本质是架构设计问题，仅靠调参和协议优化无法根治。

过去，业界应对网络拥塞的主流思路集中在协议层：无论是自适应路由、包喷洒，还是OpenAI刚发布的MRC，本质上都是在拥塞发生后进行补救或绕行。

而ZCube选择了一条不同的路：从架构层面，直接消除第二类“可避免拥塞”产生的根源，让它“不该发生的就不发生”。

ZCube的三重设计逻辑

从组网架构图来看，ZCube打破了Clos架构中层次化堆叠交换机的传统思路，采用了一种完全扁平化的GPU服务器互联方式。

第一层：取消分层，全网扁平化。传统Clos架构由Spine层和Leaf层组成，数据在GPU之间传输需要“上行到Spine，再下行到Leaf”，跨层转发本身就会引入额外延迟和拥塞风险。ZCube取消了Spine层交换机，将所有Leaf交换机按序号奇偶分为两组，两组之间采用完全二部图互联（即每台奇数交换机与所有偶数交换机相连）。这意味着全网任意两台GPU之间，仅需经过两台交换机即可互达，网络直径固定为2跳。这个设计巧妙地介于单层交换机组网（1跳，但规模受限）和双层Clos（3跳，延迟较高）之间。

第二层：单轨+多轨混合接入，实现理想负载均衡。这是ZCube设计中最精妙的部分。每张GPU网卡拥有两个端口，分别以两种截然不同的方式接入两组交换机：第一个端口采用“多轨”方式，即相同编号的GPU连接到同一台奇数交换机；第二个端口采用“单轨”方式，即连续编号的GPU连接到同一台偶数交换机。

这种“一张网卡，两种接法”的拓扑设计，带来了一个关键特性：全网任意两张GPU之间有且仅有一条最优路径。多路径选路是传统架构拥塞的重要来源，因为多条路径意味着负载均衡策略需要做选择，而选择就可能出错，导致流量集中。ZCube用唯一的确定性路径，彻底消除了这一不确定性。

说得更直白些：在ROFT架构下那些会在交换机之间发生冲突、“堵车”的流量，在ZCube架构下可以独享整条网络路径。

第三层：更低成本，更强扩展性，更高容错。ZCube在实现性能提升的同时，反而降低了硬件成本。由于取消了Spine层，在构建相同规模的集群时，ZCube比Clos/ROFT架构大约能减少三分之一的交换机和光模块数量。

在扩展性方面，ZCube同样表现出色。以当前主流的400Gb/s网络配置计算，ZCube仅用一层交换机即可构建连接16384张GPU的扁平网络。而传统ROFT架构要实现同等规模，需要三层交换机。如果采用下一代102.4Tbps交换机和四端口ConnectX-8网卡，ZCube可支持的GPU规模更可达65536张。

容错性方面也有优势。由于ZCube全网GPU之间不存在硬性隔离平面，在给定链路故障率下，任意一对GPU之间通信路径不可达的概率，比传统双平面Clos网络要低50%以上。

可以这样类比：传统Clos架构像一座复杂的多层立交桥系统，车流需要频繁上下匝道，高峰期特定匝道必然拥堵，且立交桥的某一层出故障会影响大量通行。而ZCube则像一张经过精密数学优化的平面路网，每辆车都有一条唯一且最短的路径直达目的地，任何路段的车流量都被预先均匀分摊，从规划层面就消除了拥堵发生的条件。

实验验证：同样的硬件，多出15%的算力

ZCube真正引人注目的地方在于，它已经在智谱千卡级的GLM-5.1 coding推理集群中，完成了完整的生产环境验证。

实验设置非常清晰，只改变一个变量：将集群的传统ROFT架构替换为ZCube架构。GPU型号、软件栈、业务代码均保持不变。结果如下：

推理吞吐提升15%以上：同样的硬件投入，每秒能多响应15%的API请求。
TTFT P99下降40.6%：首Token响应的尾延迟大幅降低，用户体验更流畅。
交换机与光模块成本减少三分之一：据估算，在万卡规模集群中，仅网络硬件一项即可节省投资约2.1亿至6.4亿元。

更关键的是，这项升级的边际成本极低，纯粹是组网架构的替换。在GPU供应持续紧张、价格居高不下的当下，一种不依赖额外硬件堆叠就能显著提升系统整体效率的方案，其产业价值不言而喻。

AI基础设施的价值重心正在迁移

将ZCube的落地与OpenAI MRC协议的发布，放在2026年AI基础设施的大背景下审视，会发现它们共同指向一个更深层的行业拐点：AI基础设施的价值重心，正在从单纯的“算力”获取，向“系统效率”的极致挖掘迁移。

核心逻辑：让已有的GPU跑得更好

过去三年，大模型公司的基础设施策略可以用一个字概括：买。抢GPU、抢算力卡、抢机柜、甚至抢能源。这套逻辑在模型从零到一的阶段是成立的，算力规模直接决定了能训练多大的模型、能支撑多少用户。

但到了现阶段，这个逻辑开始遇到明显的阻力。

首先，GPU的供应仍然紧张。尽管英伟达持续扩产，但需求的增速远超供给，尤其是高端推理卡的交付周期依然以季度计。其次，算力采购的经济模型正在恶化。GPU价格居高不下，而大模型API的定价竞争日趋激烈，Token单价持续走低，毛利空间被两端挤压。最后，单纯堆叠GPU的边际收益在递减。当集群规模从千卡扩展到万卡，新增GPU的算力并不能被线性释放，网络、存储等系统瓶颈会愈发突出。

在这一趋势下，OpenAI的MRC和智谱的ZCube，恰好代表了协议层和架构层两条互补的技术路径。两者高度协同，当推理集群规模继续向十万卡甚至更大规模演进时，这种“架构层无拥塞设计 + 协议层强容错机制”的组合，或许将成为超大规模AI集群的标配。

产业链的结构性变化

回顾历史，英伟达在2019年以69亿美元收购Mellanox，将InfiniBand技术纳入其AI算力版图。此后，数据中心网络市场几乎被InfiniBand垄断了AI场景的高端需求。

然而，当行业发展进入新阶段，多重力量正在打破这一格局。

一方面，超以太网联盟（UEC）标准快速推进，正从协议层面为以太网补齐AI场景所需的低延迟和高可靠能力。另一方面，据TrendForce研究报告，全球AI专用光收发模块市场已进入高速成长期，预计将从2025年的165亿美元增至2026年的260亿美元，增幅超过57%。国金证券研报也指出，随着推理需求驱动算力从通用GPU向专用ASIC演进，ASIC芯片在网络接口设计上天然倾向于采用开放的以太网标准，这也在推动网络架构从专有协议向开放标准迁移。

ZCube的出现，进一步加速了这一进程。它对交换机层级的要求从传统的三层降低到了一层，对高端Spine交换机的依赖大幅降低，转而对Leaf交换机的端口密度提出了更高要求。

这意味着，未来AI集群组网的采购逻辑将发生结构性变化：需求从“少量高端交换机 + 大量中端交换机”的金字塔结构，转向“大量高密度交换机 + 更高速光模块”的扁平化结构。

尾声

网络架构创新的投入产出比，可能远超大多数人的直觉。

在GPU价格高企、算力供给偏紧的大环境下，多数公司的注意力仍然集中在“如何获得更多GPU”上。但ZCube用真实的生产数据证明，在GPU资源不变的前提下，纯粹通过网络架构的升级，就能释放出15%的额外有效算力，同时节省三分之一的网络硬件成本。如果将这一比例外推到万卡甚至十万卡规模，网络优化所释放的价值将远超一般认知。

网络瓶颈还有一个被广泛低估的特性：它会随着集群规模呈指数级加剧。集群规模翻倍，GPU间通信的复杂度和拥塞发生的概率及影响，可能会增长数倍。这意味着，像ZCube这类架构级创新的价值，将随着推理集群的持续扩张而加速显现。

对于正在加速扩建AI基础设施的云厂商、模型公司与智算中心而言，现在或许是一个重新审视组网方案的关键时刻。AI算力竞赛的下半场，胜负手可能就取决于那张“看不见的网”。

来源:https://www.jiqizhixin.com/articles/2026-05-21-3

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：清华VAST新范式实现3D生成智能算力分配 SIGGRAPH 2026 下一篇：小红书与剑桥联合推出HyperEyes并行多模态搜索智能体