首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
中国算力大动脉:自研高速网校正技术实现关键突破

中国算力大动脉:自研高速网校正技术实现关键突破

热心网友
97
转载
2026-03-13

据国家超算互联网平台披露,核心节点试运行邀测以来已吸引数百家AI模型厂商及诸多高校和科研院所参与。

在AI时代,算力被视为支撑一切的基础。一个大规模智算中心的迅速投运是当下各行各业如火如荼扩大AI应用的缩影。更不易见但更关键的变化藏在这些大规模集群算力基础设施的建设中。中国信息通信研究院云计算与大数据研究所云计算部副主任郑立介绍,超大规模智算集群服务是全球AI竞争的关键,国内企业正积极开展融合与自研的解决方案。

一个月前,scaleFabric高速网络已经部署在国家超算互联网核心节点,与3套曙光万卡超集群、超3万张国产AI加速卡一同编织成一张高效的算力网。随着大模型训练规模迈向万卡级,智算基础设施正进入“网络定义算力效率”的新赛点。3月12日,“scaleFabric高速网络产品发布会”正式召开,中科曙光重磅推出首款国产Infiniband原生无损RDMA高速网络,这一里程碑式突破受到业界广泛关注。


这并非一次简单的产品迭代,而是国产算力基础设施从“堆卡数量”迈向“网络效率”的关键一跃。当算力堆到一定程度,真正决定集群价值的,早已不是单点芯片的性能,而是让算力“跑起来”的大动脉——算力的下半场,比的就是这张“网”。

算力逻辑开启重构

大模型训练需要极大算力已不是秘密。中国信息通信研究院云计算与大数据研究所云计算部副主任郑立介绍,超大规模智算集群已成全球AI竞争焦点,而当前智算网络普遍面临时延过高、算网协同难、运维难等瓶颈,传统RDMA实现路径存在生态封闭或性能短板问题,倒逼行业走向融合与自研。在Transformer架构持续主导的发展范式下,大模型训练算力需求每3.5个月翻一番。此外,有数据表明人工智能集群性能每9个月翻一番。集群的算力正在追赶模型的演变速度。

与此同时,2026年开年以来,AI应用正以更快的速度收获用户,AI应用热潮也将算力网络的压力推向极限。先是在春节期间多家AI厂商的红包攻势下,AI应用霸榜手机App应用商城前几名,再是开源智能体框架OpenClaw“小龙虾”风靡全球。在其背后,数百万个智能体在全球终端昼夜运行,每一次任务执行背后,都是海量数据在成千上万张计算卡间的高速穿梭。

一场席卷全球的AI基础设施建设已然开启。在海外,“星际之门计划”囊括了20个数据中心建设,“欧洲智算云”拟投资金额达到80亿欧元。在国内,算力规模适度超前建设,算力总体规模位居全球第二,多家科技厂商也在重金投入。

在这场算力扩张赛中,一个正在发生的深刻变化难以忽视:算力和网络的效率失衡正成为制约大模型发展的核心瓶颈。研究显示,稠密模型的通信时间占比为10%~20%,MoE模型的通信耗时更是高达40%~60%。当人工智能从“技术炫技”走向“规模化应用”,真正决定集群价值的,早已不只是堆了多少张卡,而是让算力“跑起来”的网络效率。在这个算力的下半场,高速网络不再是算力的配角,而成为决定集群价值的核心变量。

中科曙光推出的scaleFabric高速网络产品,正在成为这一变局中的关键角色。历时三年研发,中科曙光实现了scaleFabric从底层的112G SerDes IP、硬件设备到上层的管理软件的100%全栈自研,构建了从硬件到软件的完整自主技术体系,摆脱了海外RDMA技术依赖,让“中国算力更好地跑在中国网络上”从愿景走向现实,也将“网”的效率往上提升了一个台阶。

scaleFabric400交换机单端口带宽实现800Gb/s超高带宽,网卡端到端传输延迟低于1微秒。在扩展性上,相比NDR网络,scaleFabric单子网集群规模可扩展至11.4万张卡,网络总体成本降低了30%,且兼容市面上所有智算及超算应用场景。在可靠性方面,scaleFabric拥有自研的112G SerDes IP以保障稳定性,链路故障路由恢复时间小于1微秒,则保障了高容错性。

此次推出的国内首款原生无损RDMA高速网络产品则面向超大规模智算集群设计。其中scaleFabric网卡带宽高达400Gbps,scaleFabric400交换机单端口带宽达800Gbps,协议都支持InfiniBand。整体而言,曙光scaleFabric的点对点延迟已与国际顶尖水平持平,支持超大规模组网,网络成本则较进口IB大幅降本。

国产网络突围

在高速网络的世界里,一直存在着两条不同的技术路线。

一条叫InfiniBand(IB),另一条叫RoCE(RDMA over Converged Ethernet)。如果把算力集群比作一座庞大的城市,IB网络就像“高铁”,有集中调度中心统一指挥,发车前确认轨道空闲。精准、高效、可靠;RoCE则像“公路交通”,依托现有路网,各类车辆混行,堵车、追尾、交通事故难以避免,还得靠交警(运维工程师)指挥疏导。这个类比能清晰展示两种技术的本质差异。

再细看两种技术的实现方式,两者差异还是很明显的。流控机制上,IB网络采用“基于信用”的流控,发送数据前先确认接收端有足够的缓冲区,如同高铁发车前确认前方轨道空闲,从根源上杜绝丢包,是真正的“无损网络”。而RoCE网络采用PFC(优先级流量控制)暂停机制,当接收端忙不过来时,就发一个“暂停”指令,这种管理方式容易造成PFC风暴甚至死锁。业内共识是,RoCE要实现所谓的“无损”,必须依赖复杂的拥塞控制算法,还需要工程师针对不同的应用、流量模型反复优化,造成了较高的技术门槛。

为了真正满足万卡集群对“真无损”的极致要求,曙光在做scaleFabric时,一开始就选择了IB这条难但正确的路。这种选择也使scaleFabric在转发延时、组网能力方面获得了更好的表现。

由于IB交换机采用VCT(虚切通)交换机制,可以边收边转,交换延时低至100纳秒级别,远超沿用以太网的“存储-转发”机制的RoCE交换机,避免了微秒级的延时差异在数千卡乃至数万卡并行训练时被无数次通信放大。

曙光选择的InfiniBand路线,组网能力更突出。当跨POD通信性能较差的情况下,RoCE网络很多时候只适合中小规模组网,而IB网络可支持组网的规模达到数万节点以上。此外,部署时,属于以太网络的RoCE配置过程复杂,IB则无需过多配置。

而因为上述多种原因,在高端高速网络方案市场,InfiniBand仍然有着稳固的主导地位。当前InfiniBand与GPU深度绑定,是大模型训练的“黄金组合”。但从行业格局看此前,InfiniBand市场几乎是英伟达一家独大,国内用户面临成本高昂、供货受限、技术支持响应慢的三重困境。以成本为例,有数据显示,进口IB组网方案较RoCE方案成本高50%以上。

在国内高端IB设备厂商缺少、海外厂商占主导的情况下,在中国市场,中高端IB设备还处于一机难求的状况。

面对种种局限和困难,曙光的解法是,自己造一条路,既继承IB技术优势、又实现全栈国产化,让自研的IB网络成为HPC产品的组网方案,给市场提供国产IB网络的选择。scaleFabric历时三年研发、从交换芯片、网卡芯片、交换机、平台软件100%全栈自研,改变了国内厂商在网络方案市场中的局面,含金量正是在此。

稳定运行的案例是最好的注脚。在国家超算互联网核心节点,这套方案仅用36小时就完成这些集群的网络部署,较一般RoCE网络部署时间缩短数倍,而且交付即生产,交付后稳定运行,目前承载了3套万卡集群上线运行。运行一个月时,这套方案服务了超10000名用户。目前,scaleFabric还实现了近万卡验证规模持续稳定运行超10个月。

一张网重塑算力版图

当一张国产自研的高速网络铺进国家超算互联网核心节点,它的意义已超出产品本身。

国产原生InfiniBand网络的突破填补了国内算力建造者在超大规模智能计算高速互联领域的关键空白。这张网也正在改变国内算力产业的游戏规则。

在成本上,scaleFabric较进口IB方案降低约30%,让国内智算中心能以更低门槛拥抱高性能网络。在运维上,它实现了IB集中式管理的“即插即用”优势,用户无需组建专门的维护团队,就能运行万卡集群。

“目前全球下一代基础模型‘能力跃升’进展缓慢,超大规模智算集群成为下一代基础大模型训练的最优解。”郑立指出,算力供给模式正从“单体超算”“单体智算”向“集群智算”转变,呈现大规模、标准化、模块化的特点。算力网络也从“辅助连接”向“核心算力组件”角色转变,其性能直接决定了集群的线性扩展能力和有效算力利用率。单就IB网络而言,IBTA组织预计,到2028年将需要更高带宽的1.6Tb/s IB产品。

在这种情况下,高带宽产品的市场需求还在膨胀。随着集群越来越大,谁掌握了高速互联技术,谁就握住了下一代大模型竞赛的入场券。

与此同时,一套从标准到产品、从芯片到生态的自主体系也正在成型。不止步于做出一张网,曙光还在“光合组织AI计算开放架构联合实验室”下设立了“数据中心网络优化项目组”,推动自主网络标准制定与场景化方案研发,scaleFabric的发布,将助力我国抢占下一代AI算力制高点。郑立表示,信通院将联合中科曙光等企事业单位共同推进智算网络行业标准制定,打通底层资源壁垒。

当前全球AI竞争日益激烈,AI基础设施的建设也在以前所未有的速度推进。当算力的下半场哨声吹响,国内的算力建造者正努力从市场参与者转向规则制定者,从追赶者努力转变为并跑者。

来源:https://www.163.com/dy/article/KNT72ME50519DDQ2.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

科技股中期行情持续关注算力与复苏双主线投资策略
AI
科技股中期行情持续关注算力与复苏双主线投资策略

科技板块近期出现回调,分析指出这主要受短期因素影响,人工智能等产业的中期趋势未变。投资布局可关注“算力”与“复苏”双主线,算力方向包括AI、光模块、PCB、存储芯片等核心环节;复苏方向则涉及电网设备、人形机器人及部分传统周期板块。中报业绩将成为验证各细分领域景气度的关键指标。

热心网友
05.18
英伟达全系列GPU现货租赁价格大幅上涨,算力租赁概念反复走强
科技数码
英伟达全系列GPU现货租赁价格大幅上涨,算力租赁概念反复走强

算力租赁市场持续升温,行业格局悄然生变 4月15日,资本市场上的算力租赁板块表现相当活跃,反复走强。午后,协创数据(300857 SZ)、宏景科技(301396 SZ)的股价涨幅超过了10%,利通电子(603629 SH)更是逼近涨停板,股价续创历史新高。与此同时,恒润股份(603985 SH)、亿

热心网友
04.16
OpenAI内部信曝光:断言死敌Anthropic深陷算力瓶颈,差距将持续拉大
业界动态
OpenAI内部信曝光:断言死敌Anthropic深陷算力瓶颈,差距将持续拉大

OpenAI内部备忘录曝光:直指竞争对手Anthropic算力规模“不在一个量级” AI领域的竞争,火药味越来越浓了。就在本周,OpenAI向投资者发送的一份内部备忘录被曝光,内容直指其主要竞争对手Anthropic。OpenAI在文件中毫不客气地指出,双方的“规模体量完全不在一个量级”,并称Ant

热心网友
04.14
当算力开始“排队”,IT分销商不再只是“卖货的人”
科技数码
当算力开始“排队”,IT分销商不再只是“卖货的人”

高端GPU缺货、存储价格上涨、AI项目交付延迟。过去几个月,算力供给的收紧,正在从上游快速传导至整个IT产业链。多位渠道商近日对第一财经记者表示,AI算力需求的爆发已明显拉长关键设备的交付周期。“高

热心网友
04.07
国产万卡智算集群破局背后:99.99%超高可用性如何实现?
科技数码
国产万卡智算集群破局背后:99.99%超高可用性如何实现?

走进上海智能算力科技有限公司(下称“智算科技”)位于上海松江区的国产万卡集群智算中心,刚踏入机房大门,浑厚而持续的风扇轰鸣声便扑面而来。目光所及,数万张GPU在机柜里整齐排列、鳞次栉比;高速网络线缆

热心网友
04.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Mac清理Safari自动填充记录教程 保护苹果隐私安全
系统平台
Mac清理Safari自动填充记录教程 保护苹果隐私安全

在使用Safari浏览器时,自动填充功能确实能极大提升效率。但随着时间推移,其中可能积累大量过时地址、失效密码,甚至无意保存的敏感内容。这些残留记录不仅影响使用体验,更可能成为隐私泄露的隐患。本文将系统介绍在Mac上彻底清理Safari自动填充记录的多种实用方案,帮助您有效管理浏览器数据。 一、通过

热心网友
05.19
关闭Windows自动维护功能 解决电脑空闲时CPU占用过高问题
系统平台
关闭Windows自动维护功能 解决电脑空闲时CPU占用过高问题

你是否遇到过这样的困扰:电脑明明处于空闲状态,风扇却突然高速运转,硬盘指示灯频繁闪烁,任务管理器显示CPU或磁盘占用率异常飙升?这种“系统看似休息,硬件却异常忙碌”的现象,很可能源于Windows系统内置的“自动维护”功能在后台悄然运行。该功能的设计初衷是好的,旨在利用系统空闲时间自动执行磁盘碎片整

热心网友
05.19
Win11高对比度模式开启教程 弱视用户屏幕显示优化指南
系统平台
Win11高对比度模式开启教程 弱视用户屏幕显示优化指南

如果你在使用Windows 11时,感觉屏幕上的文字、图标或按钮有些模糊不清,看久了眼睛容易疲劳,这可能不是你的视力问题,而是系统默认的色彩搭配对比度不够。为了让界面元素更醒目、更容易识别,Windows 11内置了一个非常实用的功能——高对比度模式。它通过大幅强化前景与背景的颜色差异,能显著提升屏

热心网友
05.19
Mac关闭Spotlight索引的详细步骤与禁用设置技巧
系统平台
Mac关闭Spotlight索引的详细步骤与禁用设置技巧

当你的Mac出现运行卡顿、风扇噪音增大或应用程序启动缓慢时,很可能是因为Spotlight索引服务正在后台占用大量系统资源。Spotlight作为macOS内置的搜索工具,虽然方便,但其持续的索引过程确实可能影响性能。本文将详细介绍五种有效管理Spotlight的方法,包括彻底禁用、精准控制索引范围

热心网友
05.19
Mac清理Microsoft Teams缓存详细步骤指南
系统平台
Mac清理Microsoft Teams缓存详细步骤指南

当您在 macOS 上遇到 Microsoft Teams 运行缓慢、界面显示错误或登录失败等问题时,不必立即归咎于网络或系统故障。一个常见且高效的解决方案是清理应用程序的本地缓存文件。这些缓存数据在长期使用后可能损坏或过时,从而影响软件性能。本文将为您提供三种在 Mac 上安全清理 Teams 缓

热心网友
05.19