首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
中国算力大动脉:自研高速网校正技术实现关键突破

中国算力大动脉:自研高速网校正技术实现关键突破

热心网友
72
转载
2026-03-13

据国家超算互联网平台披露,核心节点试运行邀测以来已吸引数百家AI模型厂商及诸多高校和科研院所参与。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

在AI时代,算力被视为支撑一切的基础。一个大规模智算中心的迅速投运是当下各行各业如火如荼扩大AI应用的缩影。更不易见但更关键的变化藏在这些大规模集群算力基础设施的建设中。中国信息通信研究院云计算与大数据研究所云计算部副主任郑立介绍,超大规模智算集群服务是全球AI竞争的关键,国内企业正积极开展融合与自研的解决方案。

一个月前,scaleFabric高速网络已经部署在国家超算互联网核心节点,与3套曙光万卡超集群、超3万张国产AI加速卡一同编织成一张高效的算力网。随着大模型训练规模迈向万卡级,智算基础设施正进入“网络定义算力效率”的新赛点。3月12日,“scaleFabric高速网络产品发布会”正式召开,中科曙光重磅推出首款国产Infiniband原生无损RDMA高速网络,这一里程碑式突破受到业界广泛关注。


这并非一次简单的产品迭代,而是国产算力基础设施从“堆卡数量”迈向“网络效率”的关键一跃。当算力堆到一定程度,真正决定集群价值的,早已不是单点芯片的性能,而是让算力“跑起来”的大动脉——算力的下半场,比的就是这张“网”。

算力逻辑开启重构

大模型训练需要极大算力已不是秘密。中国信息通信研究院云计算与大数据研究所云计算部副主任郑立介绍,超大规模智算集群已成全球AI竞争焦点,而当前智算网络普遍面临时延过高、算网协同难、运维难等瓶颈,传统RDMA实现路径存在生态封闭或性能短板问题,倒逼行业走向融合与自研。在Transformer架构持续主导的发展范式下,大模型训练算力需求每3.5个月翻一番。此外,有数据表明人工智能集群性能每9个月翻一番。集群的算力正在追赶模型的演变速度。

与此同时,2026年开年以来,AI应用正以更快的速度收获用户,AI应用热潮也将算力网络的压力推向极限。先是在春节期间多家AI厂商的红包攻势下,AI应用霸榜手机App应用商城前几名,再是开源智能体框架OpenClaw“小龙虾”风靡全球。在其背后,数百万个智能体在全球终端昼夜运行,每一次任务执行背后,都是海量数据在成千上万张计算卡间的高速穿梭。

一场席卷全球的AI基础设施建设已然开启。在海外,“星际之门计划”囊括了20个数据中心建设,“欧洲智算云”拟投资金额达到80亿欧元。在国内,算力规模适度超前建设,算力总体规模位居全球第二,多家科技厂商也在重金投入。

在这场算力扩张赛中,一个正在发生的深刻变化难以忽视:算力和网络的效率失衡正成为制约大模型发展的核心瓶颈。研究显示,稠密模型的通信时间占比为10%~20%,MoE模型的通信耗时更是高达40%~60%。当人工智能从“技术炫技”走向“规模化应用”,真正决定集群价值的,早已不只是堆了多少张卡,而是让算力“跑起来”的网络效率。在这个算力的下半场,高速网络不再是算力的配角,而成为决定集群价值的核心变量。

中科曙光推出的scaleFabric高速网络产品,正在成为这一变局中的关键角色。历时三年研发,中科曙光实现了scaleFabric从底层的112G SerDes IP、硬件设备到上层的管理软件的100%全栈自研,构建了从硬件到软件的完整自主技术体系,摆脱了海外RDMA技术依赖,让“中国算力更好地跑在中国网络上”从愿景走向现实,也将“网”的效率往上提升了一个台阶。

scaleFabric400交换机单端口带宽实现800Gb/s超高带宽,网卡端到端传输延迟低于1微秒。在扩展性上,相比NDR网络,scaleFabric单子网集群规模可扩展至11.4万张卡,网络总体成本降低了30%,且兼容市面上所有智算及超算应用场景。在可靠性方面,scaleFabric拥有自研的112G SerDes IP以保障稳定性,链路故障路由恢复时间小于1微秒,则保障了高容错性。

此次推出的国内首款原生无损RDMA高速网络产品则面向超大规模智算集群设计。其中scaleFabric网卡带宽高达400Gbps,scaleFabric400交换机单端口带宽达800Gbps,协议都支持InfiniBand。整体而言,曙光scaleFabric的点对点延迟已与国际顶尖水平持平,支持超大规模组网,网络成本则较进口IB大幅降本。

国产网络突围

在高速网络的世界里,一直存在着两条不同的技术路线。

一条叫InfiniBand(IB),另一条叫RoCE(RDMA over Converged Ethernet)。如果把算力集群比作一座庞大的城市,IB网络就像“高铁”,有集中调度中心统一指挥,发车前确认轨道空闲。精准、高效、可靠;RoCE则像“公路交通”,依托现有路网,各类车辆混行,堵车、追尾、交通事故难以避免,还得靠交警(运维工程师)指挥疏导。这个类比能清晰展示两种技术的本质差异。

再细看两种技术的实现方式,两者差异还是很明显的。流控机制上,IB网络采用“基于信用”的流控,发送数据前先确认接收端有足够的缓冲区,如同高铁发车前确认前方轨道空闲,从根源上杜绝丢包,是真正的“无损网络”。而RoCE网络采用PFC(优先级流量控制)暂停机制,当接收端忙不过来时,就发一个“暂停”指令,这种管理方式容易造成PFC风暴甚至死锁。业内共识是,RoCE要实现所谓的“无损”,必须依赖复杂的拥塞控制算法,还需要工程师针对不同的应用、流量模型反复优化,造成了较高的技术门槛。

为了真正满足万卡集群对“真无损”的极致要求,曙光在做scaleFabric时,一开始就选择了IB这条难但正确的路。这种选择也使scaleFabric在转发延时、组网能力方面获得了更好的表现。

由于IB交换机采用VCT(虚切通)交换机制,可以边收边转,交换延时低至100纳秒级别,远超沿用以太网的“存储-转发”机制的RoCE交换机,避免了微秒级的延时差异在数千卡乃至数万卡并行训练时被无数次通信放大。

曙光选择的InfiniBand路线,组网能力更突出。当跨POD通信性能较差的情况下,RoCE网络很多时候只适合中小规模组网,而IB网络可支持组网的规模达到数万节点以上。此外,部署时,属于以太网络的RoCE配置过程复杂,IB则无需过多配置。

而因为上述多种原因,在高端高速网络方案市场,InfiniBand仍然有着稳固的主导地位。当前InfiniBand与GPU深度绑定,是大模型训练的“黄金组合”。但从行业格局看此前,InfiniBand市场几乎是英伟达一家独大,国内用户面临成本高昂、供货受限、技术支持响应慢的三重困境。以成本为例,有数据显示,进口IB组网方案较RoCE方案成本高50%以上。

在国内高端IB设备厂商缺少、海外厂商占主导的情况下,在中国市场,中高端IB设备还处于一机难求的状况。

面对种种局限和困难,曙光的解法是,自己造一条路,既继承IB技术优势、又实现全栈国产化,让自研的IB网络成为HPC产品的组网方案,给市场提供国产IB网络的选择。scaleFabric历时三年研发、从交换芯片、网卡芯片、交换机、平台软件100%全栈自研,改变了国内厂商在网络方案市场中的局面,含金量正是在此。

稳定运行的案例是最好的注脚。在国家超算互联网核心节点,这套方案仅用36小时就完成这些集群的网络部署,较一般RoCE网络部署时间缩短数倍,而且交付即生产,交付后稳定运行,目前承载了3套万卡集群上线运行。运行一个月时,这套方案服务了超10000名用户。目前,scaleFabric还实现了近万卡验证规模持续稳定运行超10个月。

一张网重塑算力版图

当一张国产自研的高速网络铺进国家超算互联网核心节点,它的意义已超出产品本身。

国产原生InfiniBand网络的突破填补了国内算力建造者在超大规模智能计算高速互联领域的关键空白。这张网也正在改变国内算力产业的游戏规则。

在成本上,scaleFabric较进口IB方案降低约30%,让国内智算中心能以更低门槛拥抱高性能网络。在运维上,它实现了IB集中式管理的“即插即用”优势,用户无需组建专门的维护团队,就能运行万卡集群。

“目前全球下一代基础模型‘能力跃升’进展缓慢,超大规模智算集群成为下一代基础大模型训练的最优解。”郑立指出,算力供给模式正从“单体超算”“单体智算”向“集群智算”转变,呈现大规模、标准化、模块化的特点。算力网络也从“辅助连接”向“核心算力组件”角色转变,其性能直接决定了集群的线性扩展能力和有效算力利用率。单就IB网络而言,IBTA组织预计,到2028年将需要更高带宽的1.6Tb/s IB产品。

在这种情况下,高带宽产品的市场需求还在膨胀。随着集群越来越大,谁掌握了高速互联技术,谁就握住了下一代大模型竞赛的入场券。

与此同时,一套从标准到产品、从芯片到生态的自主体系也正在成型。不止步于做出一张网,曙光还在“光合组织AI计算开放架构联合实验室”下设立了“数据中心网络优化项目组”,推动自主网络标准制定与场景化方案研发,scaleFabric的发布,将助力我国抢占下一代AI算力制高点。郑立表示,信通院将联合中科曙光等企事业单位共同推进智算网络行业标准制定,打通底层资源壁垒。

当前全球AI竞争日益激烈,AI基础设施的建设也在以前所未有的速度推进。当算力的下半场哨声吹响,国内的算力建造者正努力从市场参与者转向规则制定者,从追赶者努力转变为并跑者。

来源:https://www.163.com/dy/article/KNT72ME50519DDQ2.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

智谱CEO张鹏最新专访:首度回应AI领域热点争议
科技数码
智谱CEO张鹏最新专访:首度回应AI领域热点争议

【导读】智谱CEO张鹏认为,大模型未来12个月面临的最大问题可能是算力中国基金报记者 卢鸰3月27日上午,在中关村论坛一场主题为“OpenClaw与AI开源”的圆桌对话上,中国AI大模型领域的顶级“

热心网友
03.27
问芯问界夏立雪:平台token调用量激增超10倍,远超手机3G增速
科技数码
问芯问界夏立雪:平台token调用量激增超10倍,远超手机3G增速

新京报贝壳财经讯(记者罗亦丹)3月27日,2026中关村论坛年会的AI开源前沿论坛上,无问芯穹联合创始人兼CEO夏立雪表示,OpenClaw(即“龙虾”)这类Agent产品,彻底改变了AI交互形态,

热心网友
03.27
券商掘金AI新赛道:资本热捧“词元”成投资主线
科技数码
券商掘金AI新赛道:资本热捧“词元”成投资主线

来源:环球网【环球网财经综合报道】在日前举行的中国发展高层论坛2026年年会上,国家数据局局长刘烈宏首次使用“词元”作为Token的中文译词。他透露,2024年初中国日均Token调用量为1000亿

热心网友
03.27
上海如何打造懂开发者的家园:词元时代“人”的价值重塑
科技数码
上海如何打造懂开发者的家园:词元时代“人”的价值重塑

根据国家数据局本月发布的数据,我国日均词元(Token)调用量突破140万亿,相比2024年初增长超1000倍,比今年初增长40%以上。词元,这个曾经只在技术文档中出现的词汇,如今已成为中国AI产业

热心网友
03.27
中国移动算力服务:“十四五”千亿市场如何快速布局
科技数码
中国移动算力服务:“十四五”千亿市场如何快速布局

“算力是智能经济、智能社会的重要基础设施,公司把算力服务作为高质量发展的重要增长极,目标是到‘十五五’期末实现收入翻番。算力服务包括数据中心、云算服务和云算应用三类,目前三项业务都表现出很好的增长潜

热心网友
03.26

最新APP

你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26
儿童画画
儿童画画
休闲益智 03-25
疯狂猜词
疯狂猜词
休闲益智 03-25
诸神皇冠
诸神皇冠
棋牌策略 03-25

热门推荐

猎豹浏览器免安装网页版:在线云端使用入口与教程
电脑教程
猎豹浏览器免安装网页版:在线云端使用入口与教程

猎豹浏览器免安装网页版入口是https: web lemur-browser com,具备界面简洁响应迅速、多端同步无缝衔接、安全防护层级丰富、文档处理能力突出、资源兼容性广泛覆

热心网友
03.27
昆仑万维发布三大世界第一梯队AI模型
科技数码
昆仑万维发布三大世界第一梯队AI模型

据昆仑万维集团消息,3月27日下午,昆仑万维(300418 SZ)旗下天工AI顺利举办“世界模型前沿技术与天工AIGC全家桶大模型生态”专场发布会,携Matrix-Game 3 0、SkyReels

热心网友
03.27
杨植麟、张鹏、夏立雪、罗福莉论道大模型:未来一年趋势前瞻
科技数码
杨植麟、张鹏、夏立雪、罗福莉论道大模型:未来一年趋势前瞻

本报(chinatimes net cn)记者石飞月 北京报道大模型未来会走向哪里?OpenClaw的爆火似乎为全行业指明了一个方向,但接踵而至的舆论质疑,又让这个答案变得扑朔迷离。3月27日,在2

热心网友
03.27
Anthropic核心模型意外泄露,网络安全股面临冲击风险
科技数码
Anthropic核心模型意外泄露,网络安全股面临冲击风险

Anthropic一款尚未发布的新AI模型因数据泄露意外曝光,引发市场对AI颠覆网络安全行业的担忧再度升温,网络安全板块股价周五盘前全线下挫。据《财富》杂志报道,Anthropic正在开发并已开始向

热心网友
03.27
Token经济到来,解析互联网大厂的布局与冷思考
科技数码
Token经济到来,解析互联网大厂的布局与冷思考

3月初,腾讯在深圳总部楼下设立“龙虾站”,引发千人排队尝鲜。OpenClaw掀起的“全民养虾”热潮,在短短一个月内让更多人看到了AI Agent深入业务场景的价值,随即推动Token调用量大规模增长

热心网友
03.27