智谱清华联合推出ZCube架构 大模型推理吞吐提升15% 网络成本降三分之一
大模型推理的浪潮正全面推动AI基础设施栈的革新。其中,网络架构的创新已成为释放昂贵硬件算力、提升系统整体经济性的核心路径。近期,一项由智谱AI、驭驯网络与清华大学合作的研究,实现了从理论到生产应用的重要突破。

2025年9月,其关于ZCube网络架构的研究成果已在网络领域顶级会议ACM SIGCOMM 2025上发表。更值得关注的是,2026年5月21日,智谱AI宣布该架构已在GLM-5.1coding的生产环境中成功部署,并实现了显著的性能优化。
基准测试结果令人瞩目:在保持GPU硬件、软件栈及上层应用完全不变的前提下,仅通过网络架构的革新,就实现了交换机与光模块的资本支出降低33%,GPU平均推理吞吐量提升15%,首Token时延(TTFT P99)更是大幅降低了40.6%。这无疑是一次兼顾高经济性与高性能的系统级突破,为大模型推理效率提升提供了关键解决方案。
传统架构的痛点与ZCube的破局思路
传统网络架构的瓶颈究竟在哪里?大规模GPU集群通常采用Clos或Fat-Tree等层次化架构,数据包需要经过接入层和汇聚层的多跳转发。随着集群规模扩大,不仅网络设备成本线性增长,跨汇聚层的流量拥塞和路径非最优问题也日益突出,直接制约了GPU间的通信效率,成为大模型训练与推理的性能瓶颈。
ZCube架构的破局之道,在于其根本性的设计哲学转变。它彻底摒弃了传统Clos架构的层次化堆叠思路,取消了汇聚层交换机,转而采用一种完全扁平化的两组交换机进行二部图互联。这种设计,结合双端口网卡的单轨与多轨混合接入机制,以及专门优化的路由算法,确保了任意两个GPU之间都拥有一条独享且最优的通信路径。
这意味着,从网络结构层面就天然实现了流量的完美负载均衡,避免了热点拥塞。更重要的是,这种架构具备极佳的扩展性,能够轻松支持数万乃至数十万张GPU的超大规模互联,为未来AI算力集群的持续扩展铺平了道路,是构建高效能AI计算网络的关键技术。
从论文到生产:平稳落地的挑战与实现
然而,任何创新的网络架构从论文走向大规模生产环境,都面临巨大挑战。布线复杂度的指数级增长、路由策略的重构、以及升级过程中如何保证业务零中断,都是必须解决的难题。
在这次生产环境改造中,驭驯网络团队发挥了关键作用。他们利用自研的自动化控制与校验工具,成功克服了高密度布线和管理复杂性的挑战,高效完成了路由策略的重构与部署,最终保障了千卡集群的快速且平稳升级。目前,基于ZCube架构的集群已稳定运行超过两周,充分验证了其可靠性与成熟度,为大模型推理服务提供了稳定的网络基础。
ZCube的成功落地,标志着一个清晰的趋势:智算基础设施正从追求通用互联,走向以模型流量特征为核心的、系统级的协同设计。未来,网络拓扑、通信库、作业调度策略三者的深度耦合与联合优化,将成为进一步提升Token生产效率、降低MaaS(模型即服务)综合运营成本的核心驱动力。这场由上层AI应用驱动的底层基础设施革命,才刚刚拉开序幕。
相关攻略
在大模型推理集群的部署中,网络架构正成为一个越来越关键的瓶颈。传统的Clos架构在面对PD分离(预填充与解码分离)带来的动态、不对称流量时,常常力不从心,结构性拥塞和PFC反压问题频发。有没有一种方法,能从网络拓扑的根子上解决这个问题?智谱AI联合驭驯网络与清华大学推出的ZCube,给出了一个颇具碘
大模型推理的浪潮正全面推动AI基础设施栈的革新。其中,网络架构的创新已成为释放昂贵硬件算力、提升系统整体经济性的核心路径。近期,一项由智谱AI、驭驯网络与清华大学合作的研究,实现了从理论到生产应用的重要突破。 2025年9月,其关于ZCube网络架构的研究成果已在网络领域顶级会议ACM SIGCOM
AI发展的历程,至今仍带着一股野蛮生长的气息:在这个阶段,规模似乎就是一切。 这条路确实被证明是有效的。从千卡到万卡,算力规模的每一次跃升,都直接支撑了大模型从GPT-4到DeepSeek V4、GLM-5的持续进化与性能狂飙。 然而,一个现实问题常常被忽略:当GPU硬件的规模膨胀到一定程度时,将这
在大模型推理集群的部署中,网络架构常常成为那个“看不见的瓶颈”。尤其是当计算与存储分离(PD分离)成为主流选择后,跨节点传输KV Cache所产生的动态、不对称流量,很容易在传统的Clos网络结构中形成局部热点,引发拥塞和性能抖动。有没有一种方法,能从网络拓扑的根源上解决这个问题?最近,由智谱AI、
零一万物与AMD联合发布Cube01智算设备,旨在为企业提供本地化AI算力解决方案。该设备将云端算力转化为可持有的私有资产,确保数据安全并实现高效持续运营。它降低了中小企业的使用门槛,助力掌握算力主权,推动组织向多智能体协同转型,加速AI从工具智能迈向组织智能的演进。
热门专题
热门推荐
加密货币市场突遭重挫:深度解析与应对策略 近期加密货币市场重挫,比特币(BTC)一度跌超13%,以太坊(ETH)跌幅更是一度超过20%,投资者情绪高度紧张,市场波动剧烈。 主要币种跌幅概览 这轮下跌来得又快又猛,各主要币种的“受灾”情况可谓一目了然。具体来看: 比特币(BTC):作为市场风向标,短时
10月11日,加密货币市场经历剧烈波动,单日爆仓金额与人数双双突破历史纪录。市场行情极端变化导致大量杠杆交易者被强制平仓,凸显了加密货币投资的高风险特性。这一事件再次引发对市场波动性与风险管理的广泛关注。
过去24小时内,加密货币市场剧烈波动,导致全网大量交易者仓位被强制平仓。数据显示,爆仓人数高达162万,涉及金额巨大。市场普遍认为,此次暴跌与多重因素相关,包括宏观经济预期变化、监管政策不确定性以及部分大型投资者抛售行为。这一事件再次凸显了加密货币市场的高风险特性。
加密货币市场经历约160亿美元清算冲击后进入缓慢筑底阶段。高杠杆集中、价格波动加剧及恐慌情绪扩散引发连锁清算。比特币与以太坊反弹空间有限;瑞波币抗跌但波动加大;Solana受冲击明显。投资者应控制杠杆、分批建仓并关注市场动态。
加密货币市场剧烈波动,过去24小时内全网爆仓金额升至191亿美元,创下历史新高。市场多空博弈激烈,杠杆交易者大量被强制平仓,凸显了高杠杆交易在极端行情中面临的巨大风险。





