近日,NVIDIA宣布其首款采用共封装光学(CPO)技术的交换机已正式交付给AI云服务商Lambda,用于其GPU集群。这一里程碑标志着硅光CPO技术正式从工程样片阶段迈入量产部署,为大规模AI计算基础设施的能效提升提供了全新的解决方案。

这款名为Quantum-X InfiniBand Photonics Q3450-LD的交换机是一款4U规格的液冷设备。它配备了144个800G InfiniBand端口,总交换带宽高达115.2 Tbps,并支持无阻塞转发。其核心由四颗NVIDIA Quantum-X800 ASIC芯片构成多平面交换架构,每颗芯片提供28.8 Tbit/s的交换能力。
CPO技术如何实现能效跃升
与传统采用可插拔光模块的方案不同,CPO技术的核心在于将光学引擎直接集成在ASIC芯片的封装旁边。这一设计将信号传输路径从厘米级大幅缩短至微米级,带来的直接好处是链路损耗从传统方案的约20dB骤降至4dB,并且移除了数字信号处理器(DSP)。
功耗对比数据清晰地展现了其优势。一台传统交换机的功耗大约为7.0kW,而Q3450-LD交换机的功耗仅为3.95kW,单台即可节省3.05kW的电力,能效相比传统设计提升了约1.77倍。
对大规模AI集群的实际影响
这种能效提升在超大规模AI集群中意义重大。Lambda的测算显示,在一个包含41,472块GPU的集群规模下,采用CPO交换机可以释放出高达4,392kW的电力。这些被节省下来的电力,足够额外运行3,137块GPU,直接提升了数据中心的计算密度和产出。
此外,可靠性也得到显著增强。在一个规划中的12.8万GPU数据中心里,传统方案需要部署65.5万个独立的光收发模块,每一个都是潜在的故障点。CPO技术通过大幅减少独立光学组件的数量,从根本上提升了整个集群的可靠性。Lambda进一步指出,在三层800G GPU架构中,后端网络已占其总网络功耗的86%,因此降低交换层功耗能为GPU释放更多电力余量,这将直接转化为更高的AI任务处理吞吐量。
目前,除了Lambda,CoreWea ve、Meta、微软以及甲骨文云基础设施等公司也已成为首批采用该技术的用户。这一技术的落地,预示着数据中心网络架构正朝着更高集成度、更低功耗的方向演进。
