首页 游戏 软件 资讯 排行榜 专题
首页
AI
十万卡算力集群引爆全球AI竞赛,国产IB迎来新机遇

十万卡算力集群引爆全球AI竞赛,国产IB迎来新机遇

热心网友
95
转载
2026-03-12


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

新智元报道

编辑:Aeneas

【新智元导读】在万卡、十万卡的训练时代,算力不再是唯一的瓶颈,网络已成全新掣肘!当AI训练进入十万卡时代,InfiniBand竟突然翻红,重新被追捧了?

大模型竞赛进入万卡乃至十万卡时代,网络正在取代算力成为新的瓶颈。

当GPT-4的参数规模突破万亿,当Llama 3的训练集群规模达到数万卡,一个潜在问题浮出水面:通信耗时正在吞噬算力红利。

据统计,在大规模AI集群训练中,通信时间占比可达30%以上。且规模越大,占比越高。

「算力竞赛已进入网络决胜期。」这是近期产业界的普遍共识。

过去几年,RoCE(RDMA over Converged Ethernet)凭借「以太网兼容、成本可控」的优势,成为不少智算中心的选择。

但当集群规模从千卡向十万卡跃升时,RoCE的调优复杂度貌似已接近临界点。而曾被诟病「封闭昂贵」的IB(InfiniBand)架构,正迎来新的价值重估。

规模放大后的「网络尴尬」

RoCE的本质,是在标准以太网上「嫁接」RDMA能力。尽管这种方式很难做到高性能无损互联,但在中小规模计算主导期,RoCE一直是国产算力厂商的关键平替。

然而,随着计算集群规模扩张到万卡级别,RoCE与原生RDMA的差异被快速放大。

核心症结在于流控机制的根本性区别。

RoCE依赖基于优先级的流控机制(PFC)。这套机制的逻辑是:当接收端缓冲区紧张时,发送暂停帧通知上游暂停发送。问题在于,PFC是一种粗粒度、反应式的流控——当暂停帧发出时,意味着接收端已经面临压力,丢包风险已然存在。

更棘手的是,PFC的「刹车-油门」机制在多级网络中极易引发连锁反应。一旦某个节点出现拥塞,PFC暂停信号会逐级向上传导,形成所谓的「PFC风暴」,导致整个网络瘫痪。

某互联网大厂的内部数据显示,在万卡级RoCE集群中,PFC风暴导致的训练中断每月可达数次,每次恢复耗时数分钟到数十分钟。

为应对这一问题,RoCE厂商普遍要求开启拥塞控制,并持续调整「水线」参数。

但水线调整高度依赖经验和网络流量模型,调得太高,降速不及时导致丢包;调得太低,链路带宽无法充分利用。

这意味着,运维团队需要针对不同应用、不同流量特征进行持续的手动调优。

「在大型互联网公司,确实有专门的团队做这件事,但对于大多数用户而言,这种调优门槛几乎不可逾越。」一位资深网络架构师坦言。

原生架构的「规模红利」

面向「大算力」时代考验,以InfiniBand(IB)路线为主的原生RDMA网络,表现得比RoCE更加游刃有余。


IB采用基于信用的精细化流控。发送端在发送数据前,必须确认接收端有足够的缓冲区空间。这种「先确认、后发送」的机制,从根源上杜绝了因资源不足导致的丢包,实现了真正意义上的无损网络。

这套机制带来的直接好处是:拥塞控制在IB网络中并非必需。用户无需像RoCE那样持续调整水线参数,也无需组建专门的网络优化团队。

当规模放大到万卡以上,网络技术细节中的反馈非常明显。

IB的集中式管理架构可以进行全网路规划,从根本上消除死锁风险;而RoCE的分布式管理依赖广播、协商和收敛,随着节点增加,路由收敛时间呈指数级上升,死锁概率随之暴增。

链路故障恢复能力是另一个分水岭。在大规模集群中,链路故障是常态而非例外。某头部厂商的统计显示,在数万卡规模下,日均链路故障可达数十次。

IB架构通过快速容错路由技术,可将故障恢复时间压缩至毫秒级,且这一时间不随网络规模增长而增加。这意味着,对于运行其上的大模型训练任务,底层链路故障几乎「无感」。

而RoCE的故障恢复通常需要秒级,足以触发训练中断和检查点回滚,造成数十分钟的算力浪费。

这种稳定性差异,已经开始呈现在TCO成本账单上。

被重新审视的「成本账」

长期以来,RoCE的核心吸引力在于成本。「IB太贵」几乎是行业共识。但当规模放大后,这笔账需要重新计算。

首先是运维成本的隐性膨胀。某智算服务商的测算显示,在万卡级RoCE集群中,专职网络优化团队的人力成本、因网络问题导致的算力闲置成本、故障排查时间成本,综合下来已接近甚至超过IB方案的硬件差价。

其次是组网效率的规模效应。IB的协议地址空间原本被诟病为扩展性瓶颈,但新一代国产IB方案已在单子网层面支持超过11万卡,较传统方案提升133%。更高的端口密度意味着更少的交换机层级、更低的光模块成本和功耗。

更重要的是,对于真正的高端计算场景,RoCE存在难以逾越的性能天花板。

传统HPC业务中包含大量小消息通信,对延迟极为敏感。RoCE的「存储-转发」交换机制导致动态时延易受网络拥堵影响,而IB的VCT交换可实现边收边转,交换时延控制在300ns以内——这是物理层面的代差。

在追求效率成本的AI训练中,这笔账已足以撼动头部用户的选型决策。

市场格局的微妙变化

市场数据正在印证这一趋势。Dell'Oro Group在《数据中心长期预测报告》中指出,尽管以太网在整体市场占据不小,但在AI后端网络领域,InfiniBand长期占据头部份额。

「这并非偶然。」一位行业观察人士指出,「AI训练对网络丢包是零容忍的,而IB是唯一从设计之初就为此场景优化的原生方案。RoCE本质是用通用网络跑专用负载,能跑和跑好是两回事。」

在国内市场,这一认知也在加速落地。随着大模型竞赛从「拼参数」转向「拼落地」,从「千卡试点」走向「万卡标配」,用户对网络稳定性的权重正在上升。

「去年我们还在讨论RoCE能不能用,今年客户问得更多的是:万卡以上到底稳不稳?」

一位网络设备厂商的销售总监表示,「当训练任务动辄跑几十天,一次网络抖动带来的损失就足以覆盖IB的差价。这时候,原生架构的稳定性就变成了硬通货。」

国产化技术的新变量

过去,讨论IB与RoCE的路线选择,很大程度上是在「性能」与「自主可控」之间做取舍——IB性能强但依赖海外,RoCE触手可及但性能妥协。

这一局面正在迎来变数。

今天,中科曙光推出首款国产原生无损RDMA高速网络scaleFabric。据说该产品实现了从112G SerDes IP、交换芯片、网卡到软件平台的100%全栈自研。



核心指标非常抢眼:scaleFabric端到端时延低于1微秒,转发时延260纳秒,单子网支持超11万卡扩展,性能对标国际顶尖IB产品NVIDIA NDR。

「这不是简单的国产替代,而是从技术路线层面给出了新的选项。」有分析认为,国产IB方案的落地,意味着用户可以不再在「性能」与「安全」之间二选一,而是可以兼得。

更重要的是,这套方案已在国家超算互联网郑州核心节点实现3万卡商用部署,累计运行作业超10万项,完成了国产最大规模的真实负载验证。

「以前选RoCE,多少有点无奈——想要国产,只能选它。现在有了真正能打的国产IB,路线选择的逻辑也将发生变化。」一位智算中心规划负责人表示。


网络成为算力竞争「胜负手」

当大模型进入万卡时代,网络已不再是算力的配角,而是决定集群效率的核心变量。

中国工程院院士邬贺铨指出,大模型训练、智算集群规模化部署,对网络提出「超低延迟、超高带宽、全程无损」的严苛要求,RDMA高速网络已成为智算集群的「算力大动脉」。


RoCE在过去几年功不可没,它以较低门槛推动了RDMA技术的普及。但当规模从千卡放大到十万卡,嫁接式架构的运维复杂度大幅上升。这条「动脉」的韧性和宽广度都迎来挑战。

IB作为原生RDMA方案,凭借基于信用的精确流控、集中式管理架构、毫秒级故障恢复等技术特性,在极限规模下展现出不可替代的稳定性优势,但此前长期受制于海外供应。

国产IB方案的突破,显然正在消除自主可控层面的顾虑。

「scaleFabric是国内首款全栈自主研发的400G原生RDMA高速网络系统,性能对标国际主流,且经规模化实践验证」。邬院士认为,这将打破国外技术垄断,补齐国产高速网络短板。


今年两会期间,高层提出要着眼高水平科技自立自强,加强原始创新和关键核心技术攻关。并且部署了超大规模智算集群等新基建工程。未来的万卡级算力基础设施将成为新常态。

可以预见,随着智算集群向十万卡乃至更大规模演进,RDMA技术路线的选择或将跳出安全考量和成本计算,真正锚定未来集群「能否真正跑起来」的需求做出战略决策。

无论如何,在这场算力规模化竞速中,网络已经成为新的胜负手。

来源:https://www.163.com/dy/article/KNR77IRD0511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

国产原生RDMA scaleFabric发布:填补大规模智算互联空白
科技数码
国产原生RDMA scaleFabric发布:填补大规模智算互联空白

3月12日,中科曙光宣布实现国产高端原生RDMA(远程直接内存访问)技术重大突破,正式发布首款全栈自研400G无损高速网络scaleFabric。该产品基于原生RDMA架构,从底层的112G Ser

热心网友
03.13
国产计算系统再突破,填补关键技术空白
科技数码
国产计算系统再突破,填补关键技术空白

来源:环球时报【环球时报报道 记者 马俊】“十五五”规划纲要草案明确提出,要“统筹推进算力设施建设、模型算法发展和高质量数据资源供给,筑牢数智化发展底座”。算力是人工智能(AI)大模型训练和运行的基

热心网友
03.13
十万卡算力集群引爆全球AI竞赛,国产IB迎来新机遇
AI
十万卡算力集群引爆全球AI竞赛,国产IB迎来新机遇

新智元报道编辑:Aeneas【新智元导读】在万卡、十万卡的训练时代,算力不再是唯一的瓶颈,网络已成全新掣肘!当AI训练进入十万卡时代,InfiniBand竟突然翻红,重新被追捧了?大模型竞赛进入万卡

热心网友
03.12
6G与AI如何协同突破?解决比速度更关键的核心难题
科技数码
6G与AI如何协同突破?解决比速度更关键的核心难题

作者:周雅如果要用一句话总结今年MWC2026给人的总体观感,那或许是,AI正在进行一场深度的“二次渗透”。它沿着两条看似独立、实则相互咬合的路径渗透——一端,是越来越贴身的个人AI,渗入手表、眼镜

热心网友
03.12
华为零中断光网络赋能全球部署,可靠性突破99.999%
科技数码
华为零中断光网络赋能全球部署,可靠性突破99.999%

IT之家 3 月 7 日消息,在 MWC26 巴塞罗那期间,华为光传送领域总裁谷云波介绍了 2025 年华为在光网络领域围绕绿色、体验、运维等方面取得的突破性进展:绿色高效网络:为欧洲、亚太、拉美、

热心网友
03.07

最新APP

你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26
儿童画画
儿童画画
休闲益智 03-25
疯狂猜词
疯狂猜词
休闲益智 03-25
诸神皇冠
诸神皇冠
棋牌策略 03-25

热门推荐

猎豹浏览器免安装网页版:在线云端使用入口与教程
电脑教程
猎豹浏览器免安装网页版:在线云端使用入口与教程

猎豹浏览器免安装网页版入口是https: web lemur-browser com,具备界面简洁响应迅速、多端同步无缝衔接、安全防护层级丰富、文档处理能力突出、资源兼容性广泛覆

热心网友
03.27
昆仑万维发布三大世界第一梯队AI模型
科技数码
昆仑万维发布三大世界第一梯队AI模型

据昆仑万维集团消息,3月27日下午,昆仑万维(300418 SZ)旗下天工AI顺利举办“世界模型前沿技术与天工AIGC全家桶大模型生态”专场发布会,携Matrix-Game 3 0、SkyReels

热心网友
03.27
杨植麟、张鹏、夏立雪、罗福莉论道大模型:未来一年趋势前瞻
科技数码
杨植麟、张鹏、夏立雪、罗福莉论道大模型:未来一年趋势前瞻

本报(chinatimes net cn)记者石飞月 北京报道大模型未来会走向哪里?OpenClaw的爆火似乎为全行业指明了一个方向,但接踵而至的舆论质疑,又让这个答案变得扑朔迷离。3月27日,在2

热心网友
03.27
Anthropic核心模型意外泄露,网络安全股面临冲击风险
科技数码
Anthropic核心模型意外泄露,网络安全股面临冲击风险

Anthropic一款尚未发布的新AI模型因数据泄露意外曝光,引发市场对AI颠覆网络安全行业的担忧再度升温,网络安全板块股价周五盘前全线下挫。据《财富》杂志报道,Anthropic正在开发并已开始向

热心网友
03.27
Token经济到来,解析互联网大厂的布局与冷思考
科技数码
Token经济到来,解析互联网大厂的布局与冷思考

3月初,腾讯在深圳总部楼下设立“龙虾站”,引发千人排队尝鲜。OpenClaw掀起的“全民养虾”热潮,在短短一个月内让更多人看到了AI Agent深入业务场景的价值,随即推动Token调用量大规模增长

热心网友
03.27