AI巨头联手打造AI网络层 OpenAI与AMD等芯片厂商罕见合作

时间：2026-05-08 08:07

OpenAI联合多家科技巨头发布多路径可靠连接协议，旨在解决大规模AI训练中的网络瓶颈。该协议通过拆分高速链路为多条并行路径，提升数据传输可靠性与弹性，降低单点故障风险，已在NVIDIAGB200集群中应用。网络通信已成为释放AI算力潜力的关键技术。

AI训练网络瓶颈破局：OpenAI MRC协议如何重塑万卡集群通信

当前，AI训练集群的规模正以指数级速度扩张，但一个长期存在的“木桶短板”正严重制约着整体效率——网络通信瓶颈。当数以万计的GPU协同进行大规模并行计算时，任何微小的数据延迟、丢包或链路故障，都可能导致整个训练任务暂停，使得价值数亿美元的昂贵算力资源陷入空转。这不仅是一个技术难题，更构成了巨大的运营成本黑洞。

2026虚拟币交易平台推荐：

欧易（OKX）交易平台（>>>进入官网<<<）（下载OKX的Android安装包）
币安（Binance）交易平台（>>>进入官网<<<）（下载币安Android安装包）

巨头联手：MRC协议的诞生与行业意义

近日，AI基础设施领域迎来了一项里程碑式的突破。5月7日，OpenAI通过开放计算项目（OCP）正式发布了多路径可靠连接（Multi-path Reliable Communication, MRC）协议。这项旨在根治大规模AI训练网络层痼疾的技术，并非单一公司的成果，而是由OpenAI牵头，联合AMD、NVIDIA、Intel、微软和博通等科技巨头，历时两年共同研发的结晶。目前，该协议已在搭载NVIDIA GB200的超大规模计算集群中得到实际部署与应用。

MRC协议的核心挑战：解决万卡集群的通信之痛

那么，MRC协议究竟要解决什么核心问题？其矛头直指大规模AI集群中，因网络拥塞、链路故障或设备异常而引发的通信不可靠与延迟。在训练参数规模达万亿级别的大模型时，一次关键梯度同步的数据传输卡顿，就足以让成千上万的GPU集体等待，训练效率呈断崖式下跌。集群规模越大，网络拓扑越复杂，这类问题的发生频率和所带来的经济损失就越高。

技术原理：从“单路高速”到“多路并行”的范式转变

MRC协议提供的解决方案设计巧妙，它摒弃了传统上过度依赖单一高带宽链路的脆弱架构。过去，集群可能仅依赖一条800Gb/s的超高速网络接口。而MRC的创新思路在于“化整为零，多路并行”——它将这条物理上的高速接口，在逻辑上拆分为多条独立、可并行工作的子链路。

例如，协议可以将一个800Gb/s的接口虚拟化为8条独立的100Gb/s网络路径，并让它们分别连接至不同的交换机。这就如同将一条一旦堵塞就全线瘫痪的八车道超级公路，重新规划为一个由八条可灵活调度、互为备份的智能公路网络。

核心优势：构建高弹性、高可靠的AI训练网络

这种多路径设计带来了革命性的优势：

弹性容错：当某条路径出现拥塞、抖动或物理故障时，数据流可以被即时、无缝地调度到其他健康的路径上，保障通信不中断。
提升可靠性：从根本上降低了单点故障的风险，使得整个AI训练作业的网络通信层健壮性（Robustness）得到数量级提升。
优化资源利用率：通过智能流量调度，避免了局部热点，实现了网络带宽资源的全局优化利用，让昂贵的互联带宽发挥最大价值。

行业前瞻：网络层成为AI算力进化的关键战场

此次AMD、NVIDIA、Intel等传统芯片竞争对手，与OpenAI、微软等软件及模型巨头罕见携手，并迅速将协议投入实际部署，释放出一个强烈的产业信号：随着AI模型复杂度与集群规模的持续爆炸式增长，网络通信已从“配套基础设施”升级为“核心关键技术”。解决网络层的瓶颈，已成为释放下一代万卡乃至十万卡集群算力潜力的必经之路。MRC协议的推出，不仅是为当前的大模型训练“活血化瘀”，更是为未来更庞大、更复杂的人工智能超级计算奠定了坚实的网络基础。

来源：https://www.allfinanz.cn/GameFi/119382.html

Web3