OpenAI与英伟达等五大巨头联合发布MRC协议革新AI训练网络架构

时间：2026-05-08 06:35

OpenAI联合多家科技巨头发布MRC开源协议，旨在解决大规模AI训练中的网络可靠性难题。该协议通过扁平化网络架构、多路径并行传输及确定性路由控制，显著降低延迟与故障风险，已在部分超级计算机和云平台中验证其效能，保障了训练任务在故障下的不间断运行，提升了AI基础设施的韧性与可靠性。

5月7日，OpenAI联合AMD、博通、英特尔、微软及英伟达等科技巨头，共同发布了一项旨在重塑AI基础设施网络格局的关键协议——“多路径可靠连接”（Multipath Reliable Connection, MRC）。该协议已通过开放计算项目（OCP）正式开源，其核心目标是彻底解决大规模AI模型训练中网络脆弱、成本高昂的行业共性难题。

从技术原理上看，MRC协议基于RoCE标准进行扩展，并深度融合了SRv6技术。它致力于应对一个在超大规模AI集群中极为严峻的挑战：当数万乃至数十万块GPU协同进行分布式训练时，任何微小的网络延迟、瞬时拥塞或链路闪断，都可能导致整个训练任务暂停，造成价值数十亿美元的高性能计算资源闲置。传统数据中心网络中可容忍的波动，在AI训练场景下会被急剧放大，集群规模越大，网络可靠性问题就越突出。

那么，MRC协议究竟如何构建高可靠AI网络？其解决方案主要围绕网络架构、流量工程与控制逻辑三个维度展开系统性优化。

架构革新：从复杂分层到扁平化网格

传统超大规模网络通常依赖多层（三层或四层）交换架构来连接海量计算节点，这种结构类似复杂立交桥，存在路径冗长、节点众多、功耗高且单点故障影响范围大的弊端。MRC创新性地采用了多平面网络设计，其核心思想是实现架构的“扁平化”与“资源虚拟化”。

具体而言，该技术能够将一个物理的800Gb/s高速网络接口，虚拟地划分为多个逻辑子链路。通过这种“化整为零”的方式，仅需两层交换机即可高效连接约13.1万块GPU。这种扁平化设计带来了多重优势：网络层级减少直接降低了传输延迟与整体功耗，所需管理的交换机数量也大幅下降。同时，它极大地丰富了网络路径的多样性，为后续实现智能、动态的流量调度奠定了坚实的物理基础。

流量调度：自适应多路径分发技术

在构建了高冗余的扁平网络之后，如何智能地调度数据流成为关键。MRC引入了一项名为“自适应数据包喷淋”的突破性技术。其工作原理非常直观：在进行大规模数据传输时，系统不再将数据流约束于单一固定路径，而是像喷淋头均匀洒水一样，将数据包动态分散到数百条可用的并行链路上进行同步传输。

这种多路径并发传输机制，从根本上避免了传统网络中因流量集中导致的“热点”拥塞问题。用户可能会关心数据包乱序到达如何解决——接收端的GPU能够依据每个数据包内嵌的内存地址标识，高效、准确地将分散到达的数据包重新组装为完整数据流，确保了数据传输的最终一致性。

控制简化：以确定性路由替代动态协议

网络控制平面的复杂性是另一个主要的故障来源。传统动态路由协议（如BGP）在超大规模、低延迟要求的AI计算集群中，暴露出收敛速度慢、行为难以预测等局限性。MRC对此进行了大胆革新：它全面摒弃了动态路由，转而采用基于SRv6的源路由技术。

这意味着，数据包在发送源头就已经被预先赋予了完整的传输路径信息。网络中的交换机无需进行复杂的动态路由计算与协商，只需根据静态配置执行高效的转发动作即可。这种“确定性网络”模型，彻底消除了动态路由协议可能引发的振荡与不确定性故障。其带来的性能提升是显著的：网络在遭遇故障后的恢复时间，从传统的秒级大幅缩短至微秒级。

理论需要实践验证。根据已公开的部署案例，MRC协议已在NVIDIA GB200超级计算机与Oracle Cloud Infrastructure (OCI) 数据中心得到实际应用。在真实的AI大模型训练负载测试中，即便模拟了链路抖动、交换机故障重启等极端场景，MRC也能在训练任务零中断的前提下，实现流量的自动、快速切换与故障规避，确保了计算资源的持续高效利用率。

综上所述，OpenAI携手产业伙伴推出的MRC协议，不仅仅是一项网络通信标准，更是对下一代AI算力基础设施架构的前瞻性定义。它瞄准的不仅是极致的网络性能，更是超大规模系统在持续扩展中所必需的“韧性”与“高可用性”。随着AI模型向万亿乃至更大参数规模演进，此类底层基础设施的创新，其战略意义或许比模型架构本身的微调更为深远和关键。

来源：https://www.techweb.com.cn/it/2026-05-07/2975145.shtml