智谱AI与清华联合推出下一代大模型推理架构ZCube
在大模型推理集群的部署中,网络架构常常成为那个“看不见的瓶颈”。尤其是当计算与存储分离(PD分离)成为主流选择后,跨节点传输KV Cache所产生的动态、不对称流量,很容易在传统的Clos网络结构中形成局部热点,引发拥塞和性能抖动。有没有一种方法,能从网络拓扑的根源上解决这个问题?最近,由智谱AI、驭驯网络与清华大学联合推出的ZCube,给出了一份颇具启发性的答卷。
ZCube是什么
简单来说,ZCube是一套专为应对PD分离部署中结构性网络拥塞而设计的下一代大模型推理网络架构。它的核心思路相当大胆:直接取消传统三层Clos网络中的Spine层交换机,转而采用全网扁平化的拓扑结构,并创新性地引入了单轨与多轨混合的GPU接入机制。这套组合拳的目标非常明确——实现全局流量的彻底解耦与离散化路由。
效果如何?在GLM-5.1 coding模型的实际生产环境测试中,在保持GPU硬件和软件栈完全不变的前提下,ZCube架构成功将交换机与光模块的资本支出降低了33%。更关键的是性能提升:GPU的平均推理吞吐提升了15%,而衡量用户体验的首Token响应时间(TTFT)的P99分位数更是显著降低了40.6%。这些数字背后,是网络瓶颈被实质性打破的证明。
ZCube的主要功能
- 取消Spine层的扁平化组网:这可以说是ZCube最碘伏性的设计。它摒弃了传统Clos架构层层堆叠的思路,只保留Leaf交换机层,并通过一种称为“完全二部图”的方式将所有Leaf交换机互联起来。这样一来,网络中任意两点间的通信距离(网络直径)就从传统的3跳被压缩到了仅需2跳。
- 单/多轨混合接入机制:这是实现流量离散化的关键。ZCube将Leaf交换机分为两组,一组以“单轨”方式连接连续编号的GPU,另一组则以“多轨”方式连接相同编号的GPU。这种巧妙的差异化接入设计,使得PD分离产生的那种动态、不对称的流量,在进入网络时就被天然地打散到了不同的路径上。
- 全局负载均衡路由:得益于其独特的拓扑和接入规则,ZCube的路由策略能够确保任意两块GPU之间只存在一条唯一的最优路径。这就从根本上避免了多路径路由中常见的流量冲突和哈希不均问题,无论是在训练还是推理场景下,都能实现接近理想的全局负载均衡。
- 结构性拥塞消除:上述所有功能的最终指向,都是解决那个根本性问题。ZCube通过架构层的创新,将KV Cache的跨节点传输流量进行了全局性的解耦与离散化,从而从源头上消除了导致局部热点链路和PFC反压的结构性原因。
ZCube的技术原理
要理解ZCube为何有效,需要稍微深入一下其技术内核。它的工作原理可以拆解为以下几个紧密关联的部分:
- 完全二部图拓扑:这是网络扁平化的基础。所有Leaf交换机会被按照奇偶序号分为两组,组内的交换机之间互不连接,而组间的每一台交换机则与另一组的所有交换机实现全连接。这就形成了一个高度对称且简洁的扁平网络。
- 双端口差异化接入:每张GPU网卡通常配备两个端口,ZCube对这两个端口做了差异化分工。一个端口以单轨模式连接至奇数编号的Leaf交换机,另一个端口则以多轨模式连接至偶数编号的Leaf交换机。通过一套精密的数学映射公式,实现了确定性的、离散化的路由。
- 确定性最短路径路由:路由计算本身变得异常简洁高效。基于GPU编号和交换机编号进行模运算和向上取整映射,可以确保任意两个GPU之间的通信,必然且仅经过两台特定的Leaf交换机,这条路径就是全局最优且唯一的。
- 流量模式适配:这套架构仿佛是专为PD分离的流量特征量身定制的。它不需要依赖复杂的自适应路由算法或报文喷洒(Spray)等传输层机制,仅凭其拓扑结构本身,就能将源-目的不对称、动态变化的KV Cache传输流量自然地分散到全网,实现“以静制动”。
如何使用ZCube
将ZCube从理论架构落地到生产环境,遵循一套清晰的步骤:
- 架构规划:首先,根据集群规模,将Leaf交换机按奇偶序号进行分组,并规划设计完全二部图的互联拓扑,这意味着你需要告别传统的Spine层交换机。
- 端口接入配置:为集群中的每一张GPU网卡配置其双端口的接入策略,严格按照单轨(连接奇数交换机)与多轨(连接偶数交换机)的混合模式进行连线。
- 自动化部署:利用ZCube提供的控制器、机房布局设计工具以及连线正确性检测程序,可以高效地完成配置的自动生成与批量下发,大幅降低部署复杂度和出错概率。
- 生产验证:在推理服务正式上线前,务必进行严格的带宽、时延和PFC事件监控。确认全网无结构性拥塞热点后,再进行流量切换,确保平稳过渡。
ZCube的核心优势
综合来看,ZCube带来的价值是多维且显著的:
- 成本显著降低:在同等规模下,相比传统的Clos或其优化变体ROFT,ZCube能节省约33%的交换机和光模块投入。折算到万卡级别的智算集群,网络硬件投资节省可能高达数亿元。
- 推理性能提升:生产环境实测数据最有说服力。GLM-5.1 coding模型上实现的15%以上吞吐提升和40.6%的TTFT P99下降,直接转化为更高的服务效率和更好的用户体验。
- 超强扩展能力:基于当前主流的51.2T交换机,ZCube架构可以构建连接超过1.6万块400Gbps网卡的扁平网络。通过多平面划分,其理论可扩展性能够支持数万乃至数十万GPU的互联,为未来集群的膨胀预留了空间。
- 零侵入式升级:这一点对于已有关键业务尤为重要。采用ZCube无需改动现有的GPU硬件、驱动、软件栈或上层应用逻辑,仅仅通过网络架构层的调优,就能释放出被瓶颈束缚的硬件潜能,升级风险极低。
ZCube的项目地址
- 若希望了解更详细的技术细节、设计论文或最新动态,可以访问其项目官网:https://z.ai/blog/zcube
ZCube的同类竞品对比
为了更清晰地定位ZCube,我们将其与当前领域内另一种先进的网络架构ROFT进行对比:
| 对比维度 | ZCube | ROFT(Rail-Optimized Fat-Tree) |
|---|---|---|
| 网络架构 | 扁平化二部图,取消Spine层 | 两层Fat-Tree,保留Spine层 |
| 网络直径 | 2跳 | 3跳 |
| 负载均衡 | 全局理想均衡,单路径无冲突 | 静态Rail映射,推理场景易失衡 |
| 拥塞控制 | 从架构层消除结构性拥塞 | 易产生局部热点和PFC反压 |
| 硬件成本 | 降低33%交换机和光模块 | 标准Clos成本 |
| 推理吞吐 | 提升15% | 基准 |
| TTFT P99 | 降低40.6% | 基准 |
| 扩展规模 | 数万至数十万GPU | 受Spine层容量限制 |
ZCube的应用场景
综上所述,ZCube并非一个通用网络方案,而是在特定场景下能发挥巨大价值的专用架构:
- 超大规模LLM推理集群:尤其适用于采用PD分离部署的千卡至万卡级别推理集群,是解决KV Cache跨节点传输网络瓶颈的一剂“靶向药”。
- 长上下文推理服务:随着模型上下文窗口不断增长,长序列推理对网络带宽更为敏感。ZCube架构能有效缓解网络对首Token时延和整体吞吐的制约。
- 高密度智算中心:为同时承载训练和推理混合负载的智算中心,提供了一个高均衡性、低时延、高带宽利用率的网络底座选择。
- MaaS云服务平台:对于提供模型即服务的云平台,ZCube有助于降低推理服务的综合成本,并在多租户、高并发场景下提升服务尾时延的稳定性,改善SLA。
总的来看,ZCube代表了一种解决网络瓶颈的新思路:与其在复杂的路由算法和流控机制上不断修补,不如从拓扑结构上进行根本性的创新。它用更简洁的架构、更低的成本,换来了更确定、更高效的性能表现,这或许能为未来大规模AI算力基础设施的设计,提供一个重要的参考方向。
相关攻略
在大模型推理集群的部署中,网络架构常常成为那个“看不见的瓶颈”。尤其是当计算与存储分离(PD分离)成为主流选择后,跨节点传输KV Cache所产生的动态、不对称流量,很容易在传统的Clos网络结构中形成局部热点,引发拥塞和性能抖动。有没有一种方法,能从网络拓扑的根源上解决这个问题?最近,由智谱AI、
零一万物与AMD联合发布Cube01智算设备,旨在为企业提供本地化AI算力解决方案。该设备将云端算力转化为可持有的私有资产,确保数据安全并实现高效持续运营。它降低了中小企业的使用门槛,助力掌握算力主权,推动组织向多智能体协同转型,加速AI从工具智能迈向组织智能的演进。
昨天,腾讯云在AI Agent领域投下了一枚“重磅冲击波”——将其内部打磨已久的代码执行沙箱Cube,以Apache 2 0协议完整开源。这可不是一个简单的技术组件,而是一套已经过大规模生产环境验证的、可直接部署的沙箱服务技术栈。简单来说,开发者现在可以直接拿来,为自己的AI Agent搭建一个既安
在AI智能体与Agent应用开发领域,高效的编排框架正成为技术焦点。构建一个安全、高性能的智能体运行环境,沙箱技术是核心基础,也是业界公认的技术挑战。长期以来,开发者往往面临安全与性能的艰难取舍:Docker容器虽然轻量便捷,但其共享内核的架构存在潜在的安全隔离风险;而传统虚拟机虽然提供了彻底的隔离
人民财讯1月30日电,1月30日,国民技术正式发布N32Cube——芯片配置与初始化代码生成工具,并承诺软件永久免费使用。当前版本已全面支持N32H48x、H47x、G45x、G43x、G03x、L
热门专题
热门推荐
对于《梦幻西游》的玩家来说,在69级卡级打造一个高效的任务号,门派的选择直接关系到游戏体验的流畅度与性价比。综合评估,方寸山在69级这个阶段,展现出了极强的综合实力,无论是日常刷任务还是挑战高难度玩法,都能提供稳定且出色的表现。 日常任务中的高性价比选择 如果你的核心需求是快速、高效地完成日常任务,
近期,手游《冬末守护者》的关注度不断走高,许多玩家都在询问同一个核心问题:这款游戏究竟何时才能正式上线开放游玩? 通常而言,一款手游从研发完毕到全面公测,往往会经过封闭测试、删档内测、不删档测试等多个关键阶段,最终才迎来面向全体玩家的正式公测。这个周期长短不一,确实难以给出固定答案。不过,无需焦虑,
自1996年启航的《宝可梦》系列,早已成为全球无数训练家心中不朽的冒险传奇。而《宝可梦朱紫》的推出,无疑为这片广阔的帕底亚地区注入了全新的探索活力。在众多实力强劲的宝可梦中,巨钳螳螂以其标志性的钢铁巨钳和卓越的物理攻击能力,赢得了大量玩家的深度青睐。如果你也正在筹划,如何将这只虫与钢属性的强大战士纳
对于《梦幻西游》的平民玩家而言,在化生寺与普陀山之间做出选择,常常是一个需要仔细权衡的难题。这两个辅助门派定位相近,但在实际玩法、团队作用以及资源投入上却存在显著差异。本文将从任务效率、玩家对战(PK)表现以及装备养成成本三大核心维度,为您进行一次全面的对比解析,帮助您找到最适合自己的门派。 核心结
近日,《极限竞速:地平线6》玩家社区中发生了一件引发热议的趣事。一位ID为@Starshinefallng的玩家在社交媒体上分享了自己在游戏中遭遇的“离奇”内容审核事件,让不少玩家和高达粉丝感到困惑。 据该玩家发布的游戏截图显示,他当时正试图为自己的虚拟爱车定制一块个性化车牌,输入的是《机动战士高达





