智谱AI与清华联合发布新一代大模型推理架构ZCube

首页

AI资讯

热心网友

转载

2026-05-21

在大模型推理集群的部署中，网络架构正成为一个越来越关键的瓶颈。传统的Clos架构在面对PD分离（预填充与解码分离）带来的动态、不对称流量时，常常力不从心，结构性拥塞和PFC反压问题频发。有没有一种方法，能从网络拓扑的根子上解决这个问题？智谱AI联合驭驯网络与清华大学推出的ZCube，给出了一个颇具碘伏性的答案。

ZCube是什么

简单来说，ZCube是一套专为下一代大模型推理设计的网络架构。它的核心目标非常明确：根治PD分离部署中由KV Cache跨节点传输引发的结构性网络拥塞。其设计思路堪称大胆——直接取消了传统数据中心网络中的Spine层交换机，转而采用全网扁平化的拓扑，并结合单轨/多轨混合接入机制，实现了全局流量的解耦与离散化路由。

效果如何？在GLM-5.1 coding模型的生产环境实测中，在保持GPU硬件和软件栈完全不变的前提下，仅通过部署ZCube，就实现了交换机与光模块资本支出降低33%，GPU平均推理吞吐提升15%，首Token时延（TTFT）的P99分位数更是大幅降低了40.6%。这些数字背后，是网络底层逻辑的一次重要革新。

ZCube的主要功能

取消Spine层的扁平化组网：这可能是ZCube最引人注目的特点。它彻底打破了传统Clos架构层层堆叠的思维定式，只保留Leaf交换机层，并通过完全二部图的方式实现互联。这一改动直接将网络直径从3跳压缩到了2跳，路径更短，延迟自然更低。
单/多轨混合接入机制：这是实现流量离散化的关键。ZCube将一组Leaf交换机用单轨方式连接连续编号的GPU，另一组则用多轨方式连接相同编号的GPU。这种巧妙的安排，使得PD分离产生的动态、不对称流量能够“天然地”被分散到不同链路上，从源头避免了热点形成。
全局负载均衡路由：ZCube的路由策略确保了任意一对GPU之间只存在一条唯一的最优路径。这听起来似乎限制了灵活性，但实际上它完美避免了多路径选路可能带来的流量冲突问题，无论是在训练还是推理场景下，都能实现接近理想的全局负载均衡。
结构性拥塞消除：通过上述架构层的创新，ZCube能够将KV Cache的传输流量进行全局性的解耦和打散，从而从根本上消除了局部热点链路和由此触发的PFC反压，让网络运行更加顺畅。

ZCube的技术原理

理解了功能，我们再来看看它是如何实现的。ZCube的底层逻辑清晰而优雅：

完全二部图拓扑：所有Leaf交换机会被按奇偶序号分为两组。组内的交换机彼此不连接，而组间的每一台交换机都与另一组的所有交换机实现全连接。这就形成了一个高度对称且扁平的网络。
双端口差异化接入：每张GPU网卡的两个端口被赋予了不同的“使命”。一个端口以单轨模式连接奇数交换机，另一个则以多轨模式连接偶数交换机。通过一套精确的数学映射公式，实现了确定性的路由。
确定性最短路径路由：路由计算基于GPU编号和交换机编号的模运算及向上取整映射。这套机制保证了任意两个GPU之间的通信，必然且仅经过两台Leaf交换机，路径是最短且确定的。
流量模式适配：ZCube的高明之处在于，它没有试图用复杂的传输层协议（如自适应路由或报文喷洒）去“管理”PD分离的混乱流量，而是通过拓扑结构本身，让这种流量模式“被动地”被分散开。以静制动，效果反而更好。

如何使用ZCube

将这样一套新架构落地，步骤是否很复杂？实际上，它的部署路径相当清晰：

架构规划：首先，需要根据集群规模，将Leaf交换机按奇偶分组，设计好完全二部图的互联拓扑。这一步的核心是彻底告别Spine层。
端口接入配置：接着，为集群中每一张GPU网卡的双端口，配置好单轨与多轨混合接入策略，确保它们正确连接到对应的奇数组或偶数组交换机。
自动化部署：利用ZCube提供的控制器、机房布局设计工具和连线检测程序，可以自动生成配置并批量下发，大幅降低部署复杂度和人為出错风险。
生产验证：在正式承载推理业务流量前，务必进行充分的带宽、时延和PFC事件监控测试，确认网络中不存在结构性拥塞热点后，再进行切流。

ZCube的核心优势

成本显著降低：在同等规模下，相比传统的Clos或其优化版本ROFT架构，ZCube能节省约33%的交换机和光模块投入。折算到万卡级别的智算集群，网络硬件投资节省可能高达2.1亿至6.4亿元。
推理性能提升：生产环境的数据最有说服力。在GLM-5.1 coding的实测中，平均推理吞吐提升超过15%，TTFT P99降低40.6%，这意味着更快的响应速度和更稳定的用户体验。
超强扩展能力：基于当前主流的51.2T交换机，单平面ZCube网络即可连接16384块400Gbps的网卡。通过多平面划分，可以轻松支持数万乃至数十万GPU的互联，扩展性天花板极高。
零侵入式升级：这一点对现有集群尤为重要。采用ZCube无需改动GPU硬件、驱动、AI软件栈或应用逻辑，仅仅通过网络架构层的调优，就能充分释放现有硬件潜力，升级路径平滑。

ZCube的项目地址

对技术细节感兴趣的研究者或工程师，可以访问其项目官网获取更深入的资料。

项目官网：https://z.ai/blog/zcube

ZCube的同类竞品对比

为了更直观地展现ZCube的差异，我们将其与当前另一种针对大模型优化的网络架构ROFT进行对比：

对比维度	ZCube	ROFT（Rail-Optimized Fat-Tree）
网络架构	扁平化二部图，取消Spine层	两层Fat-Tree，保留Spine层
网络直径	2跳	3跳
负载均衡	全局理想均衡，单路径无冲突	静态Rail映射，推理场景易失衡
拥塞控制	从架构层消除结构性拥塞	易产生局部热点和PFC反压
硬件成本	降低33%交换机和光模块	标准Clos成本
推理吞吐	提升15%	基准
TTFT P99	降低40.6%	基准
扩展规模	数万至数十万GPU	受Spine层容量限制