中兴AI新战略:不依赖GPU,如何显著降低推理成本

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
新智元报道
编辑:桃子
【新智元导读】在万亿级大模型横行的时代,单纯靠「堆芯片」已经玩不动了。中兴交出了一份不一样的答卷:跳出单一芯片的性能内卷,靠「系统级协同」重构智算底座。
当前AI大模型参数规模已突破万亿量级,单GPU芯片的物理功耗密度、互连带宽与内存容量瓶颈,成为制约算力发展的核心问题,传统「芯片堆砌」的算力建设模式,正面临通信开销剧增、算力利用率骤降的行业共性痛点。
随着技术的快速演进和迭代,当前已经不是「一颗芯片决定算力」的时代,AI基础设施的竞争正在由「单一芯片」转向以「整机系统」为核心的竞争。
在各大GPU厂商聚焦芯片研发竞赛的背景下,中兴通讯从系统级协同架构出发,推出超节点技术,通过重构算力互联体系,将数十至数百颗多厂家GPU逻辑整合为统一计算单元,实现了算力的系统级优化。
近期中兴通讯发布的《中兴通讯超节点白皮书》,不仅为突破单GPU芯片瓶颈提供了全新解决方案,更重塑了AI算力基础设施的构建逻辑,其背后的技术创新与设计思路,对整个智算行业的发展都具有重要的参考意义。
核心底层逻辑
跳出GPU竞赛,锚定系统级算力协同
面对单GPU芯片的性能瓶颈,行业内早已形成共识,即通过高速无损互联技术将多颗GPU整合为逻辑上的「超级计算机」,是突破单芯片性能上限的核心技术路径,中兴超节点的底层设计逻辑,正是深度契合这一行业趋势,跳出单芯片性能竞赛的传统思路,将核心发力点放在系统级的算力协同上。
从第三方视角来看,这一选择既避开了GPU芯片研发的高壁垒、长周期竞争,又精准切中了当前算力建设的核心痛点——传统模式的问题并非单芯片性能不足,而是多芯片协同的效率过低。
中兴超节点并非GPU的简单物理堆砌,而是融合多芯片、整机硬件、高速互联与配套软件的集成系统,其构建严格遵循四大核心前提,为系统级算力协同筑牢基础:
一是芯片能力的均衡性,要求GPU的算力、显存、互联带宽三者匹配,避免资源浪费;
二是互联架构的有效性,超节点内任意GPU间的互联带宽达到机间互联的8倍左右,兼顾通信效率、扩展性与场景适配性;
三是内存访问的便捷性,所有GPU支持统一内存编址,兼容内存语义和消息语义,保障编程易用性与数据访问效率;
四是架构扩展的原生性,且集群扩展后仍属于高带宽域,满足算力按需配置的需求。
这四大前提的设计,让中兴超节点从底层就确立了「系统级算力最优」的目标,所有后续技术创新均围绕这一核心展开。
硬件架构创新
OEX正交无背板互联,重构GPU物理协同基础
传统GPU集群依赖Cable Tray线缆架构,存在信号损耗大、算力密度低、运维难度高、组网成本高的明显短板,这也是制约多GPU协同效率的物理层关键问题。
中兴超节点在硬件架构上的核心创新,就是推出了Orthogonal Electrical eXchange(OEX)正交无背板互联交换架构,这一架构也于2025年成功入选ODCC「年度重大技术突破」案例,从第三方视角来看,这一创新实现了GPU物理互联体系的底层重构,为高密度、高可靠性的GPU协同奠定了物理基础。

图1 OEX互联示意图
OEX架构的核心设计,是让计算托盘与交换托盘实现垂直交叉物理直连,彻底摒弃传统的高速线缆,通过正交连接器与单级交换拓扑构建无线缆的互联体系,这一设计带来的实际价值可通过白皮书的核心数据直观体现:
在112G高速信号场景下,SerDes链路长度缩短30%以上,直接消除了线缆引入的6.5dB插损,让端到端链路插损余量大于3dB,大幅降低了误码率,为TB级互联带宽提供了稳定的物理支撑;
无线缆设计直接释放了机柜内部的宝贵空间,让标准机柜可集成64/128卡甚至更多GPU,实现了单位空间算力密度的跨越式提升;
同时从根源上减少了线缆松动、老化导致的宕机风险,将系统故障修复时间MTTR从传统的小时级缩短至分钟级,完美适配AI大模型7×24小时不间断训练的高可靠性需求;
此外,交换板内集成参数面leaf交换,省去了传统组网所需的leaf层级交换机、光模块和光纤,在简化系统架构的同时,显著降低了组网的硬件成本与复杂度。
相较于行业内其他正交架构方案,中兴OEX架构的无集中式背板设计,进一步降低了层间损耗与硬件复杂度,成为当前高密度GPU互联的优质物理架构选择。

图2 OEX与Cable Tray方案对比
高速互联技术创新
自研芯片+全维度优化,打通算力协同通信瓶颈
GPU间的高效互联是系统级算力协同的核心支撑,传统GPU集群的「通信卡脖子」问题,本质是互联带宽、时延、协议兼容性的多重限制,而中兴通讯依托其在通信领域数十年的技术积累,从芯片、物理层、协议层、计算卸载、扩展性五个维度实现了高速互联技术的全面创新,打造出适配AI算力需求的TB级通信通道,从第三方视角来看,这一系列创新将通信领域的技术优势与智算需求深度结合,真正解决了多GPU协同通信的核心痛点。
在核心硬件上,中兴自研大容量交换芯片,成为高速互联的基石,该芯片实现了三大突破:
带宽与时延跃升至TB级、百纳秒级,满足海量AI数据的高速传输;
拓扑架构从点对点升级为大规模全对等互联,适配数十到数百颗GPU的协同计算;
全面兼容RDMA、CLink、OISA、Ethlink、SUE、UEC等国内外主流互联协议,为后续多厂家GPU兼容埋下伏笔。
在物理层选型上,中兴放弃了传统PCIe总线,选择以太网物理层,白皮书数据显示,PCIe 5.0 x16双向带宽仅约128GB/s,而以太网SerDes主流速率已达112Gbps,224Gbps产品已进入商用阶段,支持多通道灵活绑定,可轻松实现TB/s级端口带宽,完美契合AI训练对超高带宽的需求。
在协议层,中兴立足开放架构,既支持UALink、ESUN等国际主流开放协议,又积极参与工信部牵头的CLink协议制定,推动国内算力互联协议的统一,打破私有协议的生态壁垒。
同时,中兴将在网计算技术深度集成至交换芯片,将GPU的高负载通信操作卸载至交换芯片完成,让GPU专注核心计算,这一设计的优化效果十分显著:
在传统稠密模型训练中,All-Reduce操作复杂度从O(logN)降至O(C),大幅减少节点间消息传递次数;
在MoE混合专家模型训练中,Dispatch Multicast和Combine Reduce操作的分发时延下降20%-50%,归约时延下降40%-60%以上,干线流量减少超30%,彻底解决了MoE模型通信开销大的行业难题。
此外,中兴从互联协议、拓扑、物理形态、介质四个维度做Scale-Up可扩展性设计,预留GPU ID标识bit位满足未来十万级GPU集群寻址需求,采用线性无收敛扩展拓扑避免通信瓶颈,以机柜为单元做模块化设计实现「即插即用」扩容,遵循「能铜尽铜,距远用光」原则兼顾传输效率与成本,为算力的无限扩展提供了技术支撑。
功耗管理创新
液冷+高压直流,适配高密度算力的能源需求
超节点的高密度GPU集成,必然带来功耗的指数级增长,白皮书援引英伟达的数据显示,GPU超节点机柜功耗已从2024年H100的50kW,提升至2025年GB300 NVL72的120-150kW,未来更将向600kW乃至兆瓦级演进,功耗与散热问题成为高密度算力建设的必解难题。
从第三方视角来看,中兴超节点并未简单采用常规的散热与供电方案,而是结合算力发展趋势,打造了一套「前瞻布局、全维度适配」的功耗管理体系,从散热和供电两大维度实现创新,确保算力高效释放的同时,实现能效最优。
在散热方面,中兴构建了全维度的液冷散热体系,兼顾当前需求与未来趋势:
当前阶段采用单相冷板式液冷,这一方案是目前应用最广泛、工程化最成熟的液冷技术,市场占有率超过70%-80%,可有效支撑百千瓦级机柜的散热需求;
针对未来单芯片功耗突破2000W的趋势,未来规划硅基微通道冷板和两相冷板液冷技术,硅基微通道冷板适配HBM堆叠、Chiplet等先进封装的高热流密度需求,两相冷板液冷可在低流量下实现超高散热效率;
同时兼容浸没式液冷技术,为未来兆瓦级机柜的散热需求提供解决方案。
液冷技术的全面应用,不仅解决了高密度算力的散热问题,更推动数据中心从「算力导向」向「能效导向」转型,契合绿色智算的行业发展趋势。
在供电方面,中兴突破传统48V/54V供电体系的物理极限,采用HVDC高压直流供电架构,主流演进方向为±400V DC和800V DC,这一设计带来的优势十分突出:同等功率下,电流可降低8-16倍,铜材用量减少40%-50%,为机柜内的计算与冷却组件释放关键空间;有效抑制传输热损,整体端到端供电效率提升3%-5%,在电力成本占比30%-50%的智算中心,这一提升能带来显著的运营成本节约;可轻松支撑从当前100-150kW向250kW乃至1MW+级机柜的演进需求;减少中间能量变换层级,从根本上缓解功率因数校正与无功功率管理压力。
该架构与OCP Diablo 400、英伟达800VDC等行业主流趋势接轨,确保了供电体系的前瞻性与兼容性。
集群扩展创新:Nebula Matrix集群超节点,实现算力规模化平滑升级
单台单体超节点的算力终究有限,面对万亿乃至十万亿参数大模型的训练需求,算力的规模化扩展成为必然要求,而传统算力集群的扩展往往面临性能下降、成本激增、组网复杂等问题。
从第三方视角来看,中兴超节点的一大亮点,就是构建了「单体超节点-集群超节点」的完整扩展体系,通过Nebula Matrix集群超节点实现算力从百卡到万卡的平滑扩展,既满足了超大规模算力需求,又实现了性能与成本的最优平衡。
中兴Matrix集群超节点采用业界主流的「电交换+光互联」技术路线,通过高性能电交换机实现机柜内GPU间的互联,受铜缆传输距离限制,跨机柜场景则采用光纤介质完成互联,这一路线依托电交换技术的高成熟度、高业务普适性,规避了全光交换技术门槛高、生态不完善、对业务适配要求高的问题,成为当前大规模集群超节点建设的最优选择。
基于这一路线,中兴现有Nebula X32单体超节点可灵活扩展为Nebula Matrix X256/800集群超节点,面向未来,依托更高密度的Nebula X128单体超节点,更可进一步扩展至X8192/16384的超大规模集群,充分满足超大规模模型训练的算力需求。
同时,中兴创新提出Scale-Up与Scale-Out网络融合设计,打破了传统两类网络独立组网的模式,Scale-Up网络承载张量并行、专家并行等对带宽和时延要求极高的通信流量,Scale-Out网络承载数据并行、流水并行等对网络性能要求相对较低的通信流量,融合后构建统一的超节点互联网络,既满足了集群超节点内部的高性能互联需求,又适配了集群间的常规互联需求。
白皮书的模型测算显示,这一融合架构相比独立组网模式,能显著降低总拥有成本(TCO),同时保障了集群部署和扩容的平滑性,让用户可根据算力需求按需扩展,真正实现了「算力灵活选择,性能与成本最佳平衡」。
软件栈创新
打造超节点「操作系统」,充分释放硬件算力潜能
硬件是算力的物理基础,而软件是释放硬件算力的核心支撑,再好的硬件架构,若缺乏适配的软件体系,也无法将物理算力转化为实际的有效算力。
从第三方视角来看,中兴超节点的一大设计亮点,就是充分重视软硬件的协同优化,打造了一套深度协同、全栈优化的软件栈体系,将其定义为超节点的「操作系统」,实现了对硬件资源的统一调度、管理、优化与监控,确保物理层的所有创新都能转化为实际的算力输出。
这套软件栈的创新体现在六大核心维度:
一是实现统一虚拟化资源池与智能编排,将超节点内的算力、内存、存储资源抽象池化,根据AI训练、推理等不同工作负载需求,动态弹性分配和隔离资源,支持多任务、多租户环境下的共享与安全隔离;
二是做到极致通信优化与拓扑感知,通过深度优化的通信库和运行时系统,自动识别最优数据传输路径,结合计算与通信重叠、梯度压缩等技术,将通信开销隐藏于计算过程之中,提升系统整体效率;
三是支持异构计算统一调度与编译器优化,实现CPU/GPU/DSA等异构单元的统一调度,通过算子融合、内核生成等方式提升单卡效率与跨芯片协同效率;
四是构建全栈可观测性与智能运维体系,实现芯片-节点-集群的多级监控,实时可视化功耗、温度、性能等指标,结合AI运维实现故障预测、根因分析,将故障定位时间从小时级缩短至分钟级;
五是设置高可靠冗余机制,通过冗余算力节点与故障切换机制,避免单点故障导致的大模型训练中断,保障业务连续性;
六是引入「算力-电力」协同的绿色调度,结合任务优先级、功耗模型与实时电价,动态调整算力调度与芯片频率,在保障服务水平协议(SLA)的前提下,平滑功率波动,降低能耗与运营成本。
此外,中兴还打造了算力仿真平台,为超节点的算力配置提供「数字孪生」推演能力,该平台基于硬件参数、模型结构、算子实测数据,可模拟不同超节点形态下的训练/推理性能,为用户的硬件选型、并行策略设计提供科学依据。
白皮书以Qwen3-235B模型为例,通过算力仿真平台得出结论:在2K卡的规模下,256卡超节点相比8卡服务器,训练性能提升15%,这一结果能有效帮助用户规避试错成本,实现算力配置的最优选择。

图3 Qwen3-235B不同超节点形态最优切分下各部分耗时
多维度设计
实现多厂家GPU兼容,打破生态锁定
在各大厂商纷纷构建封闭算力生态的背景下,中兴超节点将多厂家GPU兼容作为核心创新点之一,这一设计不仅是其「绕开GPU瓶颈、另辟蹊径」的重要体现,更契合了行业开放、融合、创新的发展趋势。
从第三方视角来看,中兴超节点并非简单实现多厂家GPU的「接入」,而是通过硬件、芯片、协议、生态、集群五个维度的系统化设计,真正打破了单一GPU厂商的生态锁定,为用户提供了灵活的算力选择,也推动了国产GPU生态的繁荣发展。
在硬件层,中兴Nebula单体超节点的OEX正交架构采用高度组件化设计,将GPU适配的核心模块独立为UBB模组,针对不同厂家的GPU,用户仅需更换UBB模组,无需对超节点的整体架构、交换托盘、供电散热等核心部件做任何改动,即可实现「即插即用」的适配,大幅降低了多厂家GPU的集成门槛。
在芯片层,自研的大容量交换芯片成为多厂家GPU兼容的硬件核心,该芯片全面兼容国内外主流的GPU互联协议,而目前国内外主流GPU厂商的产品均已适配这些通用协议,从底层解决了多厂家GPU的通信兼容问题,打造了「一次设计,多卡兼容」的通用互联底座。
在协议层,中兴不仅是现有互联协议的适配者,更是行业标准的制定者,积极参与工信部牵头的CLink协议制定,推动形成统一的国内算力互联标准,同时其自研的OLink协议采用开放标准设计,向行业开放协议规范,让各GPU厂商可轻松适配。
在生态层,中兴秉持「开放解耦」的理念,全面开放OEX正交架构的机械与电气接口规范,第三方GPU厂商只需按照该规范设计计算/交换托盘,即可实现与中兴超节点的标准化接入,无需单独定制;同时,中兴已于2025年6月在ODCC网络工作组成功立项《基于正交架构的超节点硬件系统》,推动超节点硬件的行业标准化,让多厂家GPU的兼容从企业设计升级为行业规范。
在集群层,多厂家GPU的兼容能力更延伸至Nebula Matrix集群超节点,其Scale-Up/Scale-Out融合组网架构继承了单体超节点的协议兼容和组件化适配能力,无论组成集群的各单体超节点搭载不同厂家GPU,还是同一超节点内混布多品牌GPU,都能通过自研大容量交换芯片的多协议支持、融合网络的统一调度,实现跨机柜、跨品牌GPU的高带宽、低时延协同,让多厂家GPU的规模化组网成为现实。
小结
从第三方视角对中兴超节点技术进行全面解读后可以发现,中兴通讯始终围绕「做TCO最优算力系统级整合者」这一核心定位,跳出传统的芯片研发竞赛,从系统级协同架构出发,通过硬件架构、高速互联、功耗管理、集群扩展、软件栈、多厂家GPU兼容六大维度的全方位创新,成功绕开了单GPU芯片的性能瓶颈,拼出了AI算力的系统级最优解。
这份创新的价值,不仅体现在具体的技术指标提升上——白皮书数据显示,MoE模型分发时延下降20%-50%、归约时延下降40%-60%以上,更体现在对算力建设模式的重构上:中兴超节点让算力建设从「芯片堆叠」走向「协同释放」,从「单一硬件性能竞争」走向「全栈系统优化」,并以此为核心打造了「AI工厂」,将AI开发从传统的「手工作坊」升级为标准化、规模化、自动化的「现代化流水线」,为AI大模型的训练与推理提供了高效的算力底座。
更重要的是,中兴超节点的开放兼容设计,打破了单一厂商的生态锁定,为用户提供了灵活的GPU选择,推动了智算行业的开放与融合。
正如中兴超节点技术白皮书中所言,未来算力的竞争不再是「每秒浮点运算次数(FLOPS)」的竞争,而是「每瓦Token数」的竞争,中兴超节点通过系统级的创新设计,实现了算力效率、扩展能力、生态兼容性的多重最优,不仅为自身在智算行业占据了一席之地,更为整个智算行业的发展提供了全新的思路与方向。
在AI大模型持续发展的背景下,中兴超节点技术的落地与推广,必将为千行百业的智能化升级提供坚实的算力支撑,推动智算基础设施向更高效率、更绿色、更开放的方向演进。

相关攻略
新智元报道编辑:桃子【新智元导读】在万亿级大模型横行的时代,单纯靠「堆芯片」已经玩不动了。中兴交出了一份不一样的答卷:跳出单一芯片的性能内卷,靠「系统级协同」重构智算底座。当前AI大模型参数规模已突
21世纪经济报道记者孔海丽 北京报道算力和智能服务加速壮大,中国移动2025财年的收入结构有了进一步变化。3月26日,中国移动发布2025年财报,这是其首次以“通信、算力、智能”三大主业为口径披露数
3月27日,国家发展改革委、财政部发布关于优化完善无线电频率占用费标准的通知,一、优化空间业务收费标准体系。非对地静止轨道(NGSO)卫星星座系统和网络化运营的对地静止轨道(GSO)卫星系统,由按照
“算力是智能经济、智能社会的重要基础设施,公司把算力服务作为高质量发展的重要增长极,目标是到‘十五五’期末实现收入翻番。算力服务包括数据中心、云算服务和云算应用三类,目前三项业务都表现出很好的增长潜
智通财经APP获悉,Omdia最新发布的核心网络市场追踪报告显示,通信服务提供商(CSP)在2025年第四季度将其5G分组核心网投资同比提升了83%。这一增长反映出5G独立组网(SA)部署的强劲推进
热门专题
热门推荐
猎豹浏览器免安装网页版入口是https: web lemur-browser com,具备界面简洁响应迅速、多端同步无缝衔接、安全防护层级丰富、文档处理能力突出、资源兼容性广泛覆
据昆仑万维集团消息,3月27日下午,昆仑万维(300418 SZ)旗下天工AI顺利举办“世界模型前沿技术与天工AIGC全家桶大模型生态”专场发布会,携Matrix-Game 3 0、SkyReels
本报(chinatimes net cn)记者石飞月 北京报道大模型未来会走向哪里?OpenClaw的爆火似乎为全行业指明了一个方向,但接踵而至的舆论质疑,又让这个答案变得扑朔迷离。3月27日,在2
Anthropic一款尚未发布的新AI模型因数据泄露意外曝光,引发市场对AI颠覆网络安全行业的担忧再度升温,网络安全板块股价周五盘前全线下挫。据《财富》杂志报道,Anthropic正在开发并已开始向
3月初,腾讯在深圳总部楼下设立“龙虾站”,引发千人排队尝鲜。OpenClaw掀起的“全民养虾”热潮,在短短一个月内让更多人看到了AI Agent深入业务场景的价值,随即推动Token调用量大规模增长





