首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
智谱AI与清华联合发布新一代大模型推理架构ZCube

智谱AI与清华联合发布新一代大模型推理架构ZCube

热心网友
89
转载
2026-05-21

在大模型推理集群的部署中,网络架构正成为一个越来越关键的瓶颈。传统的Clos架构在面对PD分离(预填充与解码分离)带来的动态、不对称流量时,常常力不从心,结构性拥塞和PFC反压问题频发。有没有一种方法,能从网络拓扑的根子上解决这个问题?智谱AI联合驭驯网络与清华大学推出的ZCube,给出了一个颇具碘伏性的答案。

ZCube – 智谱AI联合清华推出的下一代大模型推理网络架构

ZCube是什么

简单来说,ZCube是一套专为下一代大模型推理设计的网络架构。它的核心目标非常明确:根治PD分离部署中由KV Cache跨节点传输引发的结构性网络拥塞。其设计思路堪称大胆——直接取消了传统数据中心网络中的Spine层交换机,转而采用全网扁平化的拓扑,并结合单轨/多轨混合接入机制,实现了全局流量的解耦与离散化路由。

效果如何?在GLM-5.1 coding模型的生产环境实测中,在保持GPU硬件和软件栈完全不变的前提下,仅通过部署ZCube,就实现了交换机与光模块资本支出降低33%,GPU平均推理吞吐提升15%,首Token时延(TTFT)的P99分位数更是大幅降低了40.6%。这些数字背后,是网络底层逻辑的一次重要革新。

ZCube的主要功能

  • 取消Spine层的扁平化组网:这可能是ZCube最引人注目的特点。它彻底打破了传统Clos架构层层堆叠的思维定式,只保留Leaf交换机层,并通过完全二部图的方式实现互联。这一改动直接将网络直径从3跳压缩到了2跳,路径更短,延迟自然更低。
  • 单/多轨混合接入机制:这是实现流量离散化的关键。ZCube将一组Leaf交换机用单轨方式连接连续编号的GPU,另一组则用多轨方式连接相同编号的GPU。这种巧妙的安排,使得PD分离产生的动态、不对称流量能够“天然地”被分散到不同链路上,从源头避免了热点形成。
  • 全局负载均衡路由:ZCube的路由策略确保了任意一对GPU之间只存在一条唯一的最优路径。这听起来似乎限制了灵活性,但实际上它完美避免了多路径选路可能带来的流量冲突问题,无论是在训练还是推理场景下,都能实现接近理想的全局负载均衡。
  • 结构性拥塞消除:通过上述架构层的创新,ZCube能够将KV Cache的传输流量进行全局性的解耦和打散,从而从根本上消除了局部热点链路和由此触发的PFC反压,让网络运行更加顺畅。

ZCube的技术原理

理解了功能,我们再来看看它是如何实现的。ZCube的底层逻辑清晰而优雅:

  • 完全二部图拓扑:所有Leaf交换机会被按奇偶序号分为两组。组内的交换机彼此不连接,而组间的每一台交换机都与另一组的所有交换机实现全连接。这就形成了一个高度对称且扁平的网络。
  • 双端口差异化接入:每张GPU网卡的两个端口被赋予了不同的“使命”。一个端口以单轨模式连接奇数交换机,另一个则以多轨模式连接偶数交换机。通过一套精确的数学映射公式,实现了确定性的路由。
  • 确定性最短路径路由:路由计算基于GPU编号和交换机编号的模运算及向上取整映射。这套机制保证了任意两个GPU之间的通信,必然且仅经过两台Leaf交换机,路径是最短且确定的。
  • 流量模式适配:ZCube的高明之处在于,它没有试图用复杂的传输层协议(如自适应路由或报文喷洒)去“管理”PD分离的混乱流量,而是通过拓扑结构本身,让这种流量模式“被动地”被分散开。以静制动,效果反而更好。

如何使用ZCube

将这样一套新架构落地,步骤是否很复杂?实际上,它的部署路径相当清晰:

  • 架构规划:首先,需要根据集群规模,将Leaf交换机按奇偶分组,设计好完全二部图的互联拓扑。这一步的核心是彻底告别Spine层。
  • 端口接入配置:接着,为集群中每一张GPU网卡的双端口,配置好单轨与多轨混合接入策略,确保它们正确连接到对应的奇数组或偶数组交换机。
  • 自动化部署:利用ZCube提供的控制器、机房布局设计工具和连线检测程序,可以自动生成配置并批量下发,大幅降低部署复杂度和人為出错风险。
  • 生产验证:在正式承载推理业务流量前,务必进行充分的带宽、时延和PFC事件监控测试,确认网络中不存在结构性拥塞热点后,再进行切流。

ZCube的核心优势

  • 成本显著降低:在同等规模下,相比传统的Clos或其优化版本ROFT架构,ZCube能节省约33%的交换机和光模块投入。折算到万卡级别的智算集群,网络硬件投资节省可能高达2.1亿至6.4亿元。
  • 推理性能提升:生产环境的数据最有说服力。在GLM-5.1 coding的实测中,平均推理吞吐提升超过15%,TTFT P99降低40.6%,这意味着更快的响应速度和更稳定的用户体验。
  • 超强扩展能力:基于当前主流的51.2T交换机,单平面ZCube网络即可连接16384块400Gbps的网卡。通过多平面划分,可以轻松支持数万乃至数十万GPU的互联,扩展性天花板极高。
  • 零侵入式升级:这一点对现有集群尤为重要。采用ZCube无需改动GPU硬件、驱动、AI软件栈或应用逻辑,仅仅通过网络架构层的调优,就能充分释放现有硬件潜力,升级路径平滑。

ZCube的项目地址

对技术细节感兴趣的研究者或工程师,可以访问其项目官网获取更深入的资料。

  • 项目官网:https://z.ai/blog/zcube

ZCube的同类竞品对比

为了更直观地展现ZCube的差异,我们将其与当前另一种针对大模型优化的网络架构ROFT进行对比:

对比维度 ZCube ROFT(Rail-Optimized Fat-Tree)
网络架构 扁平化二部图,取消Spine层 两层Fat-Tree,保留Spine层
网络直径 2跳 3跳
负载均衡 全局理想均衡,单路径无冲突 静态Rail映射,推理场景易失衡
拥塞控制 从架构层消除结构性拥塞 易产生局部热点和PFC反压
硬件成本 降低33%交换机和光模块 标准Clos成本
推理吞吐 提升15% 基准
TTFT P99 降低40.6% 基准
扩展规模 数万至数十万GPU 受Spine层容量限制

ZCube的应用场景

那么,哪些场景最适合ZCube大显身手呢?

  • 超大规模LLM推理集群:尤其是采用PD分离部署的千卡至万卡级推理集群,ZCube能直接解决KV Cache跨节点传输这个核心瓶颈。
  • 长上下文推理服务:处理长文本序列时,网络带宽对首Token时延和整体吞吐制约明显,ZCube的架构能有效缓解这一压力。
  • 高密度智算中心:对于同时承载训练和推理混合负载的数据中心,ZCube能提供一个高均衡、低时延、高带宽利用率的网络底座。
  • MaaS云服务平台:模型即服务平台需要兼顾成本与性能。ZCube在降低推理综合成本的同时,能显著提升多租户高并发场景下的尾时延稳定性,增强服务竞争力。
来源:https://ai-bot.cn/zcube/
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

智谱AI与清华联合发布新一代大模型推理架构ZCube
AI资讯
智谱AI与清华联合发布新一代大模型推理架构ZCube

在大模型推理集群的部署中,网络架构正成为一个越来越关键的瓶颈。传统的Clos架构在面对PD分离(预填充与解码分离)带来的动态、不对称流量时,常常力不从心,结构性拥塞和PFC反压问题频发。有没有一种方法,能从网络拓扑的根子上解决这个问题?智谱AI联合驭驯网络与清华大学推出的ZCube,给出了一个颇具碘

热心网友
05.21
智谱清华联合推出ZCube架构 大模型推理吞吐提升15% 网络成本降三分之一
AI资讯
智谱清华联合推出ZCube架构 大模型推理吞吐提升15% 网络成本降三分之一

大模型推理的浪潮正全面推动AI基础设施栈的革新。其中,网络架构的创新已成为释放昂贵硬件算力、提升系统整体经济性的核心路径。近期,一项由智谱AI、驭驯网络与清华大学合作的研究,实现了从理论到生产应用的重要突破。 2025年9月,其关于ZCube网络架构的研究成果已在网络领域顶级会议ACM SIGCOM

热心网友
05.21
智谱ZCube颠覆传统组网技术 同等GPU性能提升15%
AI资讯
智谱ZCube颠覆传统组网技术 同等GPU性能提升15%

AI发展的历程,至今仍带着一股野蛮生长的气息:在这个阶段,规模似乎就是一切。 这条路确实被证明是有效的。从千卡到万卡,算力规模的每一次跃升,都直接支撑了大模型从GPT-4到DeepSeek V4、GLM-5的持续进化与性能狂飙。 然而,一个现实问题常常被忽略:当GPU硬件的规模膨胀到一定程度时,将这

热心网友
05.21
智谱AI与清华联合推出下一代大模型推理架构ZCube
AI资讯
智谱AI与清华联合推出下一代大模型推理架构ZCube

在大模型推理集群的部署中,网络架构常常成为那个“看不见的瓶颈”。尤其是当计算与存储分离(PD分离)成为主流选择后,跨节点传输KV Cache所产生的动态、不对称流量,很容易在传统的Clos网络结构中形成局部热点,引发拥塞和性能抖动。有没有一种方法,能从网络拓扑的根源上解决这个问题?最近,由智谱AI、

热心网友
05.21
李开复苏姿丰同台发布零一万物Cube01 共话多智能体时代智算基础设施
科技数码
李开复苏姿丰同台发布零一万物Cube01 共话多智能体时代智算基础设施

零一万物与AMD联合发布Cube01智算设备,旨在为企业提供本地化AI算力解决方案。该设备将云端算力转化为可持有的私有资产,确保数据安全并实现高效持续运营。它降低了中小企业的使用门槛,助力掌握算力主权,推动组织向多智能体协同转型,加速AI从工具智能迈向组织智能的演进。

热心网友
05.20

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

加密货币市场暴跌:比特币单日跌幅超13% 以太坊一度重挫20%
web3.0
加密货币市场暴跌:比特币单日跌幅超13% 以太坊一度重挫20%

加密货币市场突遭重挫:深度解析与应对策略 近期加密货币市场重挫,比特币(BTC)一度跌超13%,以太坊(ETH)跌幅更是一度超过20%,投资者情绪高度紧张,市场波动剧烈。 主要币种跌幅概览 这轮下跌来得又快又猛,各主要币种的“受灾”情况可谓一目了然。具体来看: 比特币(BTC):作为市场风向标,短时

热心网友
05.23
加密货币爆仓创纪录 10月11日成币圈不眠之夜
web3.0
加密货币爆仓创纪录 10月11日成币圈不眠之夜

10月11日,加密货币市场经历剧烈波动,单日爆仓金额与人数双双突破历史纪录。市场行情极端变化导致大量杠杆交易者被强制平仓,凸显了加密货币投资的高风险特性。这一事件再次引发对市场波动性与风险管理的广泛关注。

热心网友
05.23
加密货币市场24小时爆仓162万人 深度解析崩盘原因与应对策略
web3.0
加密货币市场24小时爆仓162万人 深度解析崩盘原因与应对策略

过去24小时内,加密货币市场剧烈波动,导致全网大量交易者仓位被强制平仓。数据显示,爆仓人数高达162万,涉及金额巨大。市场普遍认为,此次暴跌与多重因素相关,包括宏观经济预期变化、监管政策不确定性以及部分大型投资者抛售行为。这一事件再次凸显了加密货币市场的高风险特性。

热心网友
05.23
比特币以太坊等主流币种何时触底 160亿美元清算后市场走向分析
web3.0
比特币以太坊等主流币种何时触底 160亿美元清算后市场走向分析

加密货币市场经历约160亿美元清算冲击后进入缓慢筑底阶段。高杠杆集中、价格波动加剧及恐慌情绪扩散引发连锁清算。比特币与以太坊反弹空间有限;瑞波币抗跌但波动加大;Solana受冲击明显。投资者应控制杠杆、分批建仓并关注市场动态。

热心网友
05.23
加密货币全网爆仓再创新高 24小时达191亿美元 市场风险加剧
web3.0
加密货币全网爆仓再创新高 24小时达191亿美元 市场风险加剧

加密货币市场剧烈波动,过去24小时内全网爆仓金额升至191亿美元,创下历史新高。市场多空博弈激烈,杠杆交易者大量被强制平仓,凸显了高杠杆交易在极端行情中面临的巨大风险。

热心网友
05.23