首页 游戏 软件 资讯 排行榜 专题
首页
AI
OpenAI联手科技巨头推出新协议解决AI训练网络拥塞

OpenAI联手科技巨头推出新协议解决AI训练网络拥塞

热心网友
59
转载
2026-05-13

最近,科技圈有个大动作,你可能已经听说了。由OpenAI牵头,拉上了AMD、博通、英特尔、微软和英伟达这些响当当的名字,组成了一个“全明星”联盟。他们共同发布了一项新的网络协议,目标直指一个困扰行业已久、并且随着AI算力需求爆炸而愈发棘手的老大难问题——网络拥塞。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

OpenAI 联合科技巨头推出新网络协议,破解 AI 训练拥塞难题

这个新协议有个挺直白的名字,叫“多路径可靠连接”(Multipath Reliable Connection,简称MRC)。它是为谁设计的呢?答案是那些动辄拥有超过10万块GPU的超级AI训练集群。它的核心思路其实很巧妙:与其像传统网络那样,把所有数据流量都挤在少数几条主干道上,导致动不动就“堵车”,不如把数据包同时分发到成百上千条可用的网络路径上去。这样一来,哪条路堵了或者坏了,数据流立刻就能绕道走,保证整体交通始终顺畅。

OpenAI在官方博客里把这个问题讲得很透。他们指出,网络拥塞、链路故障、设备故障,这些都是造成数据传输延迟和抖动的罪魁祸首。而且,集群规模越大,这类问题出现的频率就越高,处理起来也越麻烦。

更关键的是,在大规模AI训练这种精密作业里,哪怕只是一次短暂的网络故障,后果都可能非常严重。它可能导致整个训练任务直接崩溃,迫使系统从上一个保存的检查点重新开始,或者在网络重新计算路由的几秒钟里完全停滞。这种中断,浪费的不仅是宝贵的GPU算力,更是研发人员的时间与耐心。用OpenAI自己的话说:“我们运行的任务规模越大,任何一次链路抖动或故障所带来的影响就越大。这类工作负载本质上是一种‘故障放大器’,因此防止此类问题的发生已变得至关重要。”

MRC协议由OpenAI主导开发,其他几家巨头也贡献了各自的核心技术。整个项目由开放计算平台(OCP)联盟负责托管和协调,看得出是奔着成为行业标准去的。其中,英伟达将其Spectrum-X以太网技术整合进了MRC。目前,MRC已经在全球一些最大规模的AI训练集群中投入实际使用了,包括OpenAI自家用来训练ChatGPT和Codex等前沿大模型的集群。

此外,微软的Fairwater数据中心,以及甲骨文云基础设施(OCI)那个隶属于“星际之门”项目的Abilene数据中心,这些专为训练和部署超大模型打造的“AI工厂”,也都应用了基于Spectrum-X的MRC技术。

那么,MRC具体是怎么工作的呢?它的智能之处在于,能够在所有可用的网络路径上进行动态的负载均衡,并且实时感知并避开那些已经过载或出现问题的路径,从而始终保证GPU能以最高的效率工作。相比之下,传统网络架构在发生故障后,往往需要几秒甚至几十秒才能缓慢恢复稳定,这在分秒必争的AI训练中是不可接受的。

这种能力,确保了即便在网络出现减速、拥塞或其他意外干扰时,训练任务也能平稳进行,GPU利用率始终保持在高位。对于运维人员来说,另一个好处是管理变得简单了——他们可以通过一个统一的单一管理界面,就能对全网流量的路径进行精细化的监控和策略控制。

在架构设计上,MRC也做了精简。它的多平面网络设计,只需要两层以太网交换机,就能连接超过10万块GPU。而如果使用标准的800 Gb/s网络方案,通常需要三到四层交换机才能实现同样的规模。层数减少,意味着潜在的故障点更少,网络延迟也可能更低。

目前,MRC的规范已经通过开放计算项目(OCP)正式发布,同时附有一篇详细的学术研究论文,向整个行业开放。

Q&A

Q1:MRC协议是什么?它主要解决什么问题?

MRC(多路径可靠连接)是由OpenAI联合多家科技巨头共同开发的新型网络协议。它瞄准的是超大规模AI训练集群中的网络性能瓶颈问题,特别是拥塞和故障。通过将数据流量智能地分散到数百条并行路径上,它有效避免了传统网络中少数关键链路过载导致的延迟、抖动乃至训练中断,从而确保价值连城的GPU算力能够被持续、高效地利用。

Q2:MRC协议和传统网络方案相比有哪些优势?

对比传统方案,MRC的优势可以归纳为三点:首先是韧性更强、恢复更快。传统网络故障后恢复时间以秒甚至十秒计,而MRC能实现近乎实时的路径切换。其次是架构更简洁,连接超大规模GPU集群仅需两层网络设备,简化了部署和运维。最后是管理更集中,运维人员可以通过单一界面实现全局流量路径的精细管控,提升了运维效率。

Q3:MRC协议目前在哪些地方已经投入使用?

MRC协议并非纸上谈兵,它已经在全球最前沿的AI算力基础设施中落地。目前已知的应用包括OpenAI用于训练其旗舰大模型的内部集群,以及微软的Fairwater数据中心和甲骨文云基础设施的Abilene数据中心(后者是“星际之门”项目的一部分)。这些部署都采用了英伟达的Spectrum-X以太网技术作为硬件基础。

来源:https://ai.zhiding.cn/2026/0513/3186758.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

亚马逊贝索斯AI实验室招募OpenAI前联合创始人
业界动态
亚马逊贝索斯AI实验室招募OpenAI前联合创始人

2026年4月,人工智能领域迎来关键人事变动:亚马逊创始人杰夫·贝索斯旗下高度保密的尖端AI实验室——Project Prometheus,正式宣布迎来前OpenAI联合创始人凯尔·科西克(Kyle Kosic)的加入。该实验室的核心使命,是研发能够深度感知并理解物理世界运行规律的高级人工智能系统,

热心网友
05.13
OpenAI前首席科学家揭露CEO说谎成性 花一年调查证据欲解雇
科技数码
OpenAI前首席科学家揭露CEO说谎成性 花一年调查证据欲解雇

近日,OpenAI前首席科学家伊利亚·苏茨克弗在马斯克起诉OpenAI一案的法庭证词中,披露了一系列引人深思的内部细节。根据多家权威媒体的报道,苏茨克弗在证词中证实,他曾耗费近一年时间,专门为OpenAI董事会搜集证据,旨在证明公司首席执行官萨姆·奥尔特曼存在“系统性不诚实”的行为模式。 这份最终整

热心网友
05.12
OpenAI前首席科学家出庭作证 持有70亿美元股票
科技数码
OpenAI前首席科学家出庭作证 持有70亿美元股票

据《福布斯》报道,OpenAI的数位前任与现任高管,包括布罗克曼、穆拉蒂以及希冯·齐利斯,均已在此前庭审中间出庭作证。本周一,这场由埃隆·马斯克提起的、针对ChatGPT制造商的高风险诉讼迎来了另一位关键证人——OpenAI联合创始人兼前首席科学家伊利亚·苏茨克维尔。他在证词中证实,自己目前持有的O

热心网友
05.12
微软投资OpenAI浮盈1220亿美元 AI大时代投资机遇解析
科技数码
微软投资OpenAI浮盈1220亿美元 AI大时代投资机遇解析

微软对OpenAI的早期押注,正在兑现为一笔改变科技格局的历史性回报。 5月12日,彭博社的一则报道揭示了这场豪赌背后的具体目标。根据微软内部规划文件显示,该公司曾将对OpenAI投资的目标回报设定为920亿美元。这批文件于本周一在加州奥克兰联邦法院公开披露,正值埃隆·马斯克就OpenAI及微软提起

热心网友
05.12
OpenAI更新安全证书修复Axios漏洞 确保用户数据安全
业界动态
OpenAI更新安全证书修复Axios漏洞 确保用户数据安全

2026年4月13日,全球AI领域的领头羊OpenAI发布了一则关键公告,内容是关于其产品所依赖的一个第三方HTTP开发库——Axios——遭遇了供应链攻击。作为应对,OpenAI迅速完成了安全证书的全面更新,以保障全球用户的数据安全。这场风波始于3月31日,黑客通过入侵Axios维护者的账户,植入

热心网友
05.12

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

燕云十六声天长地酒成就怎么达成 详细完成方法解析
游戏攻略
燕云十六声天长地酒成就怎么达成 详细完成方法解析

在《燕云十六声》凉州区域达成“天长地酒”成就,需依次前往清玉岸及后续两处指定地点完成饮酒互动。三步全部完成后即可领取奖励。

热心网友
05.13
燕云十六声渡影者成就完成方法详解
游戏攻略
燕云十六声渡影者成就完成方法详解

在《燕云十六声》皇宫区域达成“渡影者”成就,需先传送至崇元殿,并将时间调整至子时。找到NPC叶育延对话后,按指引寻至张扬。依次清理其左右两侧的石狮子,最后返回与张扬对话即可解锁成就。

热心网友
05.13
燕云十六声俺们真的懂了成就完成方法详解
游戏攻略
燕云十六声俺们真的懂了成就完成方法详解

在《燕云十六声》中,达成“俺们真的懂了”成就需完成升平楼区域的借书事件链。首先于戌时前往升平楼找到NPC陈看全接取任务,随后偷听吴清对话并取得其书籍。最后将时间调至白天,返回升平楼把书交还给陈看全,即可解锁成就并获得奖励。

热心网友
05.13
Bun内存泄漏拖垮Claude Code后如何用Rust重写修复
业界动态
Bun内存泄漏拖垮Claude Code后如何用Rust重写修复

Bun宣布用六天完成的Rust版本取代原有Zig实现,涉及96万行代码,旨在解决内存泄漏与稳定性问题,尤其是作为ClaudeCode运行时的性能瓶颈。重写主要由AI完成,虽快速通过测试,但引发社区对代码质量及大量unsafe调用的担忧。此举标志Bun转向Rust,也反映AI驱动大规模代码重写的趋势。

热心网友
05.13
a16z成美中期选举最大捐助方 联邦捐款超1.15亿美元
web3.0
a16z成美中期选举最大捐助方 联邦捐款超1.15亿美元

风险投资巨头a16z及其联合创始人在本届美国中期选举中已披露联邦捐款超1 15亿美元,成为已知最大捐助方。其捐款额远超索罗斯、马斯克等人,较上一选举周期大幅增加。选举次日,a16z即向加密货币行业相关超级政治行动委员会注资超2300万美元,显示出其政治投入具有长期战略意图。

热心网友
05.13