首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
智谱AI与清华联合推出下一代大模型推理架构ZCube

智谱AI与清华联合推出下一代大模型推理架构ZCube

热心网友
61
转载
2026-05-21

在大模型推理集群的部署中,网络架构常常成为那个“看不见的瓶颈”。尤其是当计算与存储分离(PD分离)成为主流选择后,跨节点传输KV Cache所产生的动态、不对称流量,很容易在传统的Clos网络结构中形成局部热点,引发拥塞和性能抖动。有没有一种方法,能从网络拓扑的根源上解决这个问题?最近,由智谱AI、驭驯网络与清华大学联合推出的ZCube,给出了一份颇具启发性的答卷。

ZCube – 智谱AI联合清华推出的下一代大模型推理网络架构

ZCube是什么

简单来说,ZCube是一套专为应对PD分离部署中结构性网络拥塞而设计的下一代大模型推理网络架构。它的核心思路相当大胆:直接取消传统三层Clos网络中的Spine层交换机,转而采用全网扁平化的拓扑结构,并创新性地引入了单轨与多轨混合的GPU接入机制。这套组合拳的目标非常明确——实现全局流量的彻底解耦与离散化路由。

效果如何?在GLM-5.1 coding模型的实际生产环境测试中,在保持GPU硬件和软件栈完全不变的前提下,ZCube架构成功将交换机与光模块的资本支出降低了33%。更关键的是性能提升:GPU的平均推理吞吐提升了15%,而衡量用户体验的首Token响应时间(TTFT)的P99分位数更是显著降低了40.6%。这些数字背后,是网络瓶颈被实质性打破的证明。

ZCube的主要功能

  • 取消Spine层的扁平化组网:这可以说是ZCube最碘伏性的设计。它摒弃了传统Clos架构层层堆叠的思路,只保留Leaf交换机层,并通过一种称为“完全二部图”的方式将所有Leaf交换机互联起来。这样一来,网络中任意两点间的通信距离(网络直径)就从传统的3跳被压缩到了仅需2跳。
  • 单/多轨混合接入机制:这是实现流量离散化的关键。ZCube将Leaf交换机分为两组,一组以“单轨”方式连接连续编号的GPU,另一组则以“多轨”方式连接相同编号的GPU。这种巧妙的差异化接入设计,使得PD分离产生的那种动态、不对称的流量,在进入网络时就被天然地打散到了不同的路径上。
  • 全局负载均衡路由:得益于其独特的拓扑和接入规则,ZCube的路由策略能够确保任意两块GPU之间只存在一条唯一的最优路径。这就从根本上避免了多路径路由中常见的流量冲突和哈希不均问题,无论是在训练还是推理场景下,都能实现接近理想的全局负载均衡。
  • 结构性拥塞消除:上述所有功能的最终指向,都是解决那个根本性问题。ZCube通过架构层的创新,将KV Cache的跨节点传输流量进行了全局性的解耦与离散化,从而从源头上消除了导致局部热点链路和PFC反压的结构性原因。

ZCube的技术原理

要理解ZCube为何有效,需要稍微深入一下其技术内核。它的工作原理可以拆解为以下几个紧密关联的部分:

  • 完全二部图拓扑:这是网络扁平化的基础。所有Leaf交换机会被按照奇偶序号分为两组,组内的交换机之间互不连接,而组间的每一台交换机则与另一组的所有交换机实现全连接。这就形成了一个高度对称且简洁的扁平网络。
  • 双端口差异化接入:每张GPU网卡通常配备两个端口,ZCube对这两个端口做了差异化分工。一个端口以单轨模式连接至奇数编号的Leaf交换机,另一个端口则以多轨模式连接至偶数编号的Leaf交换机。通过一套精密的数学映射公式,实现了确定性的、离散化的路由。
  • 确定性最短路径路由:路由计算本身变得异常简洁高效。基于GPU编号和交换机编号进行模运算和向上取整映射,可以确保任意两个GPU之间的通信,必然且仅经过两台特定的Leaf交换机,这条路径就是全局最优且唯一的。
  • 流量模式适配:这套架构仿佛是专为PD分离的流量特征量身定制的。它不需要依赖复杂的自适应路由算法或报文喷洒(Spray)等传输层机制,仅凭其拓扑结构本身,就能将源-目的不对称、动态变化的KV Cache传输流量自然地分散到全网,实现“以静制动”。

如何使用ZCube

将ZCube从理论架构落地到生产环境,遵循一套清晰的步骤:

  • 架构规划:首先,根据集群规模,将Leaf交换机按奇偶序号进行分组,并规划设计完全二部图的互联拓扑,这意味着你需要告别传统的Spine层交换机。
  • 端口接入配置:为集群中的每一张GPU网卡配置其双端口的接入策略,严格按照单轨(连接奇数交换机)与多轨(连接偶数交换机)的混合模式进行连线。
  • 自动化部署:利用ZCube提供的控制器、机房布局设计工具以及连线正确性检测程序,可以高效地完成配置的自动生成与批量下发,大幅降低部署复杂度和出错概率。
  • 生产验证:在推理服务正式上线前,务必进行严格的带宽、时延和PFC事件监控。确认全网无结构性拥塞热点后,再进行流量切换,确保平稳过渡。

ZCube的核心优势

综合来看,ZCube带来的价值是多维且显著的:

  • 成本显著降低:在同等规模下,相比传统的Clos或其优化变体ROFT,ZCube能节省约33%的交换机和光模块投入。折算到万卡级别的智算集群,网络硬件投资节省可能高达数亿元。
  • 推理性能提升:生产环境实测数据最有说服力。GLM-5.1 coding模型上实现的15%以上吞吐提升和40.6%的TTFT P99下降,直接转化为更高的服务效率和更好的用户体验。
  • 超强扩展能力:基于当前主流的51.2T交换机,ZCube架构可以构建连接超过1.6万块400Gbps网卡的扁平网络。通过多平面划分,其理论可扩展性能够支持数万乃至数十万GPU的互联,为未来集群的膨胀预留了空间。
  • 零侵入式升级:这一点对于已有关键业务尤为重要。采用ZCube无需改动现有的GPU硬件、驱动、软件栈或上层应用逻辑,仅仅通过网络架构层的调优,就能释放出被瓶颈束缚的硬件潜能,升级风险极低。

ZCube的项目地址

  • 若希望了解更详细的技术细节、设计论文或最新动态,可以访问其项目官网:https://z.ai/blog/zcube

ZCube的同类竞品对比

为了更清晰地定位ZCube,我们将其与当前领域内另一种先进的网络架构ROFT进行对比:

对比维度 ZCube ROFT(Rail-Optimized Fat-Tree)
网络架构 扁平化二部图,取消Spine层 两层Fat-Tree,保留Spine层
网络直径 2跳 3跳
负载均衡 全局理想均衡,单路径无冲突 静态Rail映射,推理场景易失衡
拥塞控制 从架构层消除结构性拥塞 易产生局部热点和PFC反压
硬件成本 降低33%交换机和光模块 标准Clos成本
推理吞吐 提升15% 基准
TTFT P99 降低40.6% 基准
扩展规模 数万至数十万GPU 受Spine层容量限制

ZCube的应用场景

综上所述,ZCube并非一个通用网络方案,而是在特定场景下能发挥巨大价值的专用架构:

  • 超大规模LLM推理集群:尤其适用于采用PD分离部署的千卡至万卡级别推理集群,是解决KV Cache跨节点传输网络瓶颈的一剂“靶向药”。
  • 长上下文推理服务:随着模型上下文窗口不断增长,长序列推理对网络带宽更为敏感。ZCube架构能有效缓解网络对首Token时延和整体吞吐的制约。
  • 高密度智算中心:为同时承载训练和推理混合负载的智算中心,提供了一个高均衡性、低时延、高带宽利用率的网络底座选择。
  • MaaS云服务平台:对于提供模型即服务的云平台,ZCube有助于降低推理服务的综合成本,并在多租户、高并发场景下提升服务尾时延的稳定性,改善SLA。

总的来看,ZCube代表了一种解决网络瓶颈的新思路:与其在复杂的路由算法和流控机制上不断修补,不如从拓扑结构上进行根本性的创新。它用更简洁的架构、更低的成本,换来了更确定、更高效的性能表现,这或许能为未来大规模AI算力基础设施的设计,提供一个重要的参考方向。

来源:https://ai-bot.cn/zcube/
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

智谱AI与清华联合推出下一代大模型推理架构ZCube
AI资讯
智谱AI与清华联合推出下一代大模型推理架构ZCube

在大模型推理集群的部署中,网络架构常常成为那个“看不见的瓶颈”。尤其是当计算与存储分离(PD分离)成为主流选择后,跨节点传输KV Cache所产生的动态、不对称流量,很容易在传统的Clos网络结构中形成局部热点,引发拥塞和性能抖动。有没有一种方法,能从网络拓扑的根源上解决这个问题?最近,由智谱AI、

热心网友
05.21
李开复苏姿丰同台发布零一万物Cube01 共话多智能体时代智算基础设施
科技数码
李开复苏姿丰同台发布零一万物Cube01 共话多智能体时代智算基础设施

零一万物与AMD联合发布Cube01智算设备,旨在为企业提供本地化AI算力解决方案。该设备将云端算力转化为可持有的私有资产,确保数据安全并实现高效持续运营。它降低了中小企业的使用门槛,助力掌握算力主权,推动组织向多智能体协同转型,加速AI从工具智能迈向组织智能的演进。

热心网友
05.20
腾讯云开源Cube沙箱 零代码迁移Agent开发环境
AI资讯
腾讯云开源Cube沙箱 零代码迁移Agent开发环境

昨天,腾讯云在AI Agent领域投下了一枚“重磅冲击波”——将其内部打磨已久的代码执行沙箱Cube,以Apache 2 0协议完整开源。这可不是一个简单的技术组件,而是一套已经过大规模生产环境验证的、可直接部署的沙箱服务技术栈。简单来说,开发者现在可以直接拿来,为自己的AI Agent搭建一个既安

热心网友
05.18
腾讯开源Cube Sandbox AI沙盒运行时实现60毫秒冷启动
业界动态
腾讯开源Cube Sandbox AI沙盒运行时实现60毫秒冷启动

在AI智能体与Agent应用开发领域,高效的编排框架正成为技术焦点。构建一个安全、高性能的智能体运行环境,沙箱技术是核心基础,也是业界公认的技术挑战。长期以来,开发者往往面临安全与性能的艰难取舍:Docker容器虽然轻量便捷,但其共享内核的架构存在潜在的安全隔离风险;而传统虚拟机虽然提供了彻底的隔离

热心网友
05.12
国民技术N32Cube工具:高效生成芯片配置与初始化代码
科技数码
国民技术N32Cube工具:高效生成芯片配置与初始化代码

人民财讯1月30日电,1月30日,国民技术正式发布N32Cube——芯片配置与初始化代码生成工具,并承诺软件永久免费使用。当前版本已全面支持N32H48x、H47x、G45x、G43x、G03x、L

热心网友
01.30

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

梦幻西游69级任务门派推荐与选择攻略
游戏资讯
梦幻西游69级任务门派推荐与选择攻略

对于《梦幻西游》的玩家来说,在69级卡级打造一个高效的任务号,门派的选择直接关系到游戏体验的流畅度与性价比。综合评估,方寸山在69级这个阶段,展现出了极强的综合实力,无论是日常刷任务还是挑战高难度玩法,都能提供稳定且出色的表现。 日常任务中的高性价比选择 如果你的核心需求是快速、高效地完成日常任务,

热心网友
05.21
冬末守护者公测时间确定 正式上线日期预告
游戏资讯
冬末守护者公测时间确定 正式上线日期预告

近期,手游《冬末守护者》的关注度不断走高,许多玩家都在询问同一个核心问题:这款游戏究竟何时才能正式上线开放游玩? 通常而言,一款手游从研发完毕到全面公测,往往会经过封闭测试、删档内测、不删档测试等多个关键阶段,最终才迎来面向全体玩家的正式公测。这个周期长短不一,确实难以给出固定答案。不过,无需焦虑,

热心网友
05.21
宝可梦朱紫巨钳螳螂进化攻略 从飞天螳螂到强力剪刀手
游戏资讯
宝可梦朱紫巨钳螳螂进化攻略 从飞天螳螂到强力剪刀手

自1996年启航的《宝可梦》系列,早已成为全球无数训练家心中不朽的冒险传奇。而《宝可梦朱紫》的推出,无疑为这片广阔的帕底亚地区注入了全新的探索活力。在众多实力强劲的宝可梦中,巨钳螳螂以其标志性的钢铁巨钳和卓越的物理攻击能力,赢得了大量玩家的深度青睐。如果你也正在筹划,如何将这只虫与钢属性的强大战士纳

热心网友
05.21
梦幻西游平民玩家选择化生还是普陀门派优劣对比分析
游戏资讯
梦幻西游平民玩家选择化生还是普陀门派优劣对比分析

对于《梦幻西游》的平民玩家而言,在化生寺与普陀山之间做出选择,常常是一个需要仔细权衡的难题。这两个辅助门派定位相近,但在实际玩法、团队作用以及资源投入上却存在显著差异。本文将从任务效率、玩家对战(PK)表现以及装备养成成本三大核心维度,为您进行一次全面的对比解析,帮助您找到最适合自己的门派。 核心结

热心网友
05.21
极限竞速地平线6审查风波 高达经典机型遭屏蔽
游戏资讯
极限竞速地平线6审查风波 高达经典机型遭屏蔽

近日,《极限竞速:地平线6》玩家社区中发生了一件引发热议的趣事。一位ID为@Starshinefallng的玩家在社交媒体上分享了自己在游戏中遭遇的“离奇”内容审核事件,让不少玩家和高达粉丝感到困惑。 据该玩家发布的游戏截图显示,他当时正试图为自己的虚拟爱车定制一块个性化车牌,输入的是《机动战士高达

热心网友
05.21