中国算力大动脉：自研高速网校正技术实现关键突破

时间：2026-03-13 13:10

据国家超算互联网平台披露，核心节点试运行邀测以来已吸引数百家AI模型厂商及诸多高校和科研院所参与。在AI时代，算力被视为支撑一切的基础。一个大规模智算中心的迅速投运是当下各行各业如火如荼扩大AI应用

据国家超算互联网平台披露，核心节点试运行邀测以来已吸引数百家AI模型厂商及诸多高校和科研院所参与。

在AI时代，算力被视为支撑一切的基础。一个大规模智算中心的迅速投运是当下各行各业如火如荼扩大AI应用的缩影。更不易见但更关键的变化藏在这些大规模集群算力基础设施的建设中。中国信息通信研究院云计算与大数据研究所云计算部副主任郑立介绍，超大规模智算集群服务是全球AI竞争的关键，国内企业正积极开展融合与自研的解决方案。

一个月前，scaleFabric高速网络已经部署在国家超算互联网核心节点，与3套曙光万卡超集群、超3万张国产AI加速卡一同编织成一张高效的算力网。随着大模型训练规模迈向万卡级，智算基础设施正进入“网络定义算力效率”的新赛点。3月12日，“scaleFabric高速网络产品发布会”正式召开，中科曙光重磅推出首款国产Infiniband原生无损RDMA高速网络，这一里程碑式突破受到业界广泛关注。

这并非一次简单的产品迭代，而是国产算力基础设施从“堆卡数量”迈向“网络效率”的关键一跃。当算力堆到一定程度，真正决定集群价值的，早已不是单点芯片的性能，而是让算力“跑起来”的大动脉——算力的下半场，比的就是这张“网”。

算力逻辑开启重构

大模型训练需要极大算力已不是秘密。中国信息通信研究院云计算与大数据研究所云计算部副主任郑立介绍，超大规模智算集群已成全球AI竞争焦点，而当前智算网络普遍面临时延过高、算网协同难、运维难等瓶颈，传统RDMA实现路径存在生态封闭或性能短板问题，倒逼行业走向融合与自研。在Transformer架构持续主导的发展范式下，大模型训练算力需求每3.5个月翻一番。此外，有数据表明人工智能集群性能每9个月翻一番。集群的算力正在追赶模型的演变速度。

与此同时，2026年开年以来，AI应用正以更快的速度收获用户，AI应用热潮也将算力网络的压力推向极限。先是在春节期间多家AI厂商的红包攻势下，AI应用霸榜手机App应用商城前几名，再是开源智能体框架OpenClaw“小龙虾”风靡全球。在其背后，数百万个智能体在全球终端昼夜运行，每一次任务执行背后，都是海量数据在成千上万张计算卡间的高速穿梭。

一场席卷全球的AI基础设施建设已然开启。在海外，“星际之门计划”囊括了20个数据中心建设，“欧洲智算云”拟投资金额达到80亿欧元。在国内，算力规模适度超前建设，算力总体规模位居全球第二，多家科技厂商也在重金投入。

在这场算力扩张赛中，一个正在发生的深刻变化难以忽视：算力和网络的效率失衡正成为制约大模型发展的核心瓶颈。研究显示，稠密模型的通信时间占比为10%~20%，MoE模型的通信耗时更是高达40%~60%。当人工智能从“技术炫技”走向“规模化应用”，真正决定集群价值的，早已不只是堆了多少张卡，而是让算力“跑起来”的网络效率。在这个算力的下半场，高速网络不再是算力的配角，而成为决定集群价值的核心变量。

中科曙光推出的scaleFabric高速网络产品，正在成为这一变局中的关键角色。历时三年研发，中科曙光实现了scaleFabric从底层的112G SerDes IP、硬件设备到上层的管理软件的100%全栈自研，构建了从硬件到软件的完整自主技术体系，摆脱了海外RDMA技术依赖，让“中国算力更好地跑在中国网络上”从愿景走向现实，也将“网”的效率往上提升了一个台阶。

scaleFabric400交换机单端口带宽实现800Gb/s超高带宽，网卡端到端传输延迟低于1微秒。在扩展性上，相比NDR网络，scaleFabric单子网集群规模可扩展至11.4万张卡，网络总体成本降低了30%，且兼容市面上所有智算及超算应用场景。在可靠性方面，scaleFabric拥有自研的112G SerDes IP以保障稳定性，链路故障路由恢复时间小于1微秒，则保障了高容错性。

此次推出的国内首款原生无损RDMA高速网络产品则面向超大规模智算集群设计。其中scaleFabric网卡带宽高达400Gbps，scaleFabric400交换机单端口带宽达800Gbps，协议都支持InfiniBand。整体而言，曙光scaleFabric的点对点延迟已与国际顶尖水平持平，支持超大规模组网，网络成本则较进口IB大幅降本。

国产网络突围

在高速网络的世界里，一直存在着两条不同的技术路线。

一条叫InfiniBand（IB），另一条叫RoCE（RDMA over Converged Ethernet）。如果把算力集群比作一座庞大的城市，IB网络就像“高铁”，有集中调度中心统一指挥，发车前确认轨道空闲。精准、高效、可靠；RoCE则像“公路交通”，依托现有路网，各类车辆混行，堵车、追尾、交通事故难以避免，还得靠交警（运维工程师）指挥疏导。这个类比能清晰展示两种技术的本质差异。

再细看两种技术的实现方式，两者差异还是很明显的。流控机制上，IB网络采用“基于信用”的流控，发送数据前先确认接收端有足够的缓冲区，如同高铁发车前确认前方轨道空闲，从根源上杜绝丢包，是真正的“无损网络”。而RoCE网络采用PFC（优先级流量控制）暂停机制，当接收端忙不过来时，就发一个“暂停”指令，这种管理方式容易造成PFC风暴甚至死锁。业内共识是，RoCE要实现所谓的“无损”，必须依赖复杂的拥塞控制算法，还需要工程师针对不同的应用、流量模型反复优化，造成了较高的技术门槛。

为了真正满足万卡集群对“真无损”的极致要求，曙光在做scaleFabric时，一开始就选择了IB这条难但正确的路。这种选择也使scaleFabric在转发延时、组网能力方面获得了更好的表现。

由于IB交换机采用VCT（虚切通）交换机制，可以边收边转，交换延时低至100纳秒级别，远超沿用以太网的“存储-转发”机制的RoCE交换机，避免了微秒级的延时差异在数千卡乃至数万卡并行训练时被无数次通信放大。

曙光选择的InfiniBand路线，组网能力更突出。当跨POD通信性能较差的情况下，RoCE网络很多时候只适合中小规模组网，而IB网络可支持组网的规模达到数万节点以上。此外，部署时，属于以太网络的RoCE配置过程复杂，IB则无需过多配置。

而因为上述多种原因，在高端高速网络方案市场，InfiniBand仍然有着稳固的主导地位。当前InfiniBand与GPU深度绑定，是大模型训练的“黄金组合”。但从行业格局看此前，InfiniBand市场几乎是英伟达一家独大，国内用户面临成本高昂、供货受限、技术支持响应慢的三重困境。以成本为例，有数据显示，进口IB组网方案较RoCE方案成本高50%以上。

在国内高端IB设备厂商缺少、海外厂商占主导的情况下，在中国市场，中高端IB设备还处于一机难求的状况。

面对种种局限和困难，曙光的解法是，自己造一条路，既继承IB技术优势、又实现全栈国产化，让自研的IB网络成为HPC产品的组网方案，给市场提供国产IB网络的选择。scaleFabric历时三年研发、从交换芯片、网卡芯片、交换机、平台软件100%全栈自研，改变了国内厂商在网络方案市场中的局面，含金量正是在此。

稳定运行的案例是最好的注脚。在国家超算互联网核心节点，这套方案仅用36小时就完成这些集群的网络部署，较一般RoCE网络部署时间缩短数倍，而且交付即生产，交付后稳定运行，目前承载了3套万卡集群上线运行。运行一个月时，这套方案服务了超10000名用户。目前，scaleFabric还实现了近万卡验证规模持续稳定运行超10个月。

一张网重塑算力版图

当一张国产自研的高速网络铺进国家超算互联网核心节点，它的意义已超出产品本身。

国产原生InfiniBand网络的突破填补了国内算力建造者在超大规模智能计算高速互联领域的关键空白。这张网也正在改变国内算力产业的游戏规则。

在成本上，scaleFabric较进口IB方案降低约30%，让国内智算中心能以更低门槛拥抱高性能网络。在运维上，它实现了IB集中式管理的“即插即用”优势，用户无需组建专门的维护团队，就能运行万卡集群。

“目前全球下一代基础模型‘能力跃升’进展缓慢，超大规模智算集群成为下一代基础大模型训练的最优解。”郑立指出，算力供给模式正从“单体超算”“单体智算”向“集群智算”转变，呈现大规模、标准化、模块化的特点。算力网络也从“辅助连接”向“核心算力组件”角色转变，其性能直接决定了集群的线性扩展能力和有效算力利用率。单就IB网络而言，IBTA组织预计，到2028年将需要更高带宽的1.6Tb/s IB产品。

在这种情况下，高带宽产品的市场需求还在膨胀。随着集群越来越大，谁掌握了高速互联技术，谁就握住了下一代大模型竞赛的入场券。

与此同时，一套从标准到产品、从芯片到生态的自主体系也正在成型。不止步于做出一张网，曙光还在“光合组织AI计算开放架构联合实验室”下设立了“数据中心网络优化项目组”，推动自主网络标准制定与场景化方案研发，scaleFabric的发布，将助力我国抢占下一代AI算力制高点。郑立表示，信通院将联合中科曙光等企事业单位共同推进智算网络行业标准制定，打通底层资源壁垒。

当前全球AI竞争日益激烈，AI基础设施的建设也在以前所未有的速度推进。当算力的下半场哨声吹响，国内的算力建造者正努力从市场参与者转向规则制定者，从追赶者努力转变为并跑者。

来源：https://www.163.com/dy/article/KNT72ME50519DDQ2.html