D集成光学助力万亿参数MoE训练实现2.7倍加速与8倍集群扩展

时间：2026-06-18 16:16

LightmatterPassage3D集成光学平台通过垂直堆叠光子与逻辑芯片，重构了稀疏混合专家模型的互连架构。实测显示，万亿参数MoE训练速度提升2 7倍，集群扩展能力提高8倍，能效达4 3pJ bit，带宽密度为传统方案的6 6倍。

AI模型的参数规模正朝着万亿级、十万亿级急速迈进，传统半导体制程的摩尔定律放缓固然令人担忧，但眼下更紧迫的瓶颈其实出在互连环节——尤其是当模型架构转向稀疏混合专家（MoE）时，专家之间那种高频的“全交换”通信模式，将铜线的物理极限、封装岸线的资源枯竭问题全盘暴露。2025年IEEE高性能互连研讨会上，Lightmatter团队推出了Passage 3D集成光学平台，思路非常直接：将光子芯片与逻辑芯片垂直堆叠，彻底重构了scale-up集群的I/O范式。实测数据显示，针对万亿参数的MoE模型，训练速度可提升2.7倍，集群扩展能力提高8倍。

万亿参数MoE的互连挑战

Transformer从2017年的65M参数一路增长至今，训练所需的GPU也从单节点8卡扩张到了数万卡级别的数据中心。MoE架构凭借稀疏激活机制，在不过度增加计算量的前提下大幅扩展模型容量，已成为大模型演进的主流方案。但问题也随之凸显：专家并行中那个棘手的all-to-all操作，即便在7200Gbps的高速互连系统里，也能占据前向传播延迟的47%。

关键在于，scale-up域越大，可部署的专家就越多，模型性能自然随之提升。遗憾的是传统铜互连已逼近物理极限：224Gb/s速率下，无源铜缆的最大传输距离仅约1米；到了448Gb/s，连1米都难以维持。结果导致电互连的GPU集群被严格限制在单个机架内，目前主流方案最多支持72个GPU包，即便规划中的2027年144 radix交换机面世，也基本触及铜互连的物理天花板。

除了传输距离，封装岸线资源枯竭同样棘手。现代高端GPU普遍采用多芯片模块设计，南北两侧的岸线几乎全被HBM内存堆栈占据，仅东西两侧能留给互连I/O。SerDes接口想提速，信号完整性和功耗都在施加压力，进一步挤压了计算资源的功率预算。

传统光学方案的三重上限

为绕开铜互连的距离限制，业界并非没有尝试其他路径——可插拔光模块、线性可插拔光学（LPO）、2.5D共封装光学（CPO）均有人探索。但问题在于，这些方案没有一个能同时兼顾能效、密度和可扩展性这三个维度的硬性指标。

可插拔光模块虽然维护方便、互操作性强，但内置的DSP和重定时器导致总能耗高达21pJ/bit，而且单个模块面积超过2000平方毫米，带宽密度仅为1.3Gb/s/平方毫米。LPO移除了模块内的DSP，能效提升至13pJ/bit，但它仍需依赖host端的高性能SerDes，大尺寸的OSFP-XD模块也解决不了密度问题，高带宽需求下甚至需要冷板冷却。 2.5D CPO将光引擎与主机芯片共封装在同一基板上，电信号传输距离缩短，能效推进到12pJ/bit。可惜2.5D集成方式下，光引擎和host芯片仍是并排布局，需要大量岸线资源做信号扇出，封装面积明显膨胀。2.5D光引擎的带宽密度约为34Gb/s/平方毫米，仍无法满足下一代GPU的I/O需求。更关键的是，这些传统光学方案的功耗并未真正降下来——如果用可插拔光模块搭建NVLink spine网络，光模块部分就要消耗20kW功率，而一个机架的功率预算总共仅120kW，相当紧张。

Passage 3D集成光学：重塑GPU与交换机的I/O范式

Lightmatter的Passage平台走了一条截然不同的路：全3D堆叠架构，将电集成电路（EIC）直接堆叠在光子集成电路（PIC）之上。这一设计彻底颠覆了I/O逻辑——SerDes到光电转换单元的距离被压缩至100微米以内，因此能采用无需DSP的低功耗短距SerDes，能效和带宽密度直接跃升至新高度。具体而言，Passage的核心创新体现在四个方面： **1. 3D堆叠与TSV互连**：PIC芯片集成了硅光子组件和硅通孔（TSV），可直接为上层的EIC供电和传输信号。这意味着I/O接口不再受限于芯片岸线，而是能散布在整个芯片面积上——岸线资源枯竭的问题就此被绕过。

**2. 高密度波分复用（WDM）**：采用微环调制器（MRM）阵列，单根光纤能同时传输16个波长。在112Gb/s PAM-4调制下，单纤带宽达到1.792Tb/s——是传统单波长CPO方案的8倍。同时支持双向传输，光纤利用率更高。 **3. 片上光交换（OCS）**：集成了马赫-曾德尔干涉仪（MZI）构成的2×2光开关单元，可实现可编程的片上光路重配置。这不仅带来了组件级的容错能力，还支持跨掩模版的波导拼接，为晶圆级计算架构打下基础。 **4. 外部激光器设计**：激光器模块独立于GPU或交换机封装之外，通过专用光纤为系统供光。散热和可靠性问题迎刃而解，激光器损坏可单独更换，且其功耗不计入封装内的功率预算——等于为计算资源多留了些功率余量。

这几项技术叠加后，Passage实现了4.3pJ/bit的总系统能效（包括PIC、激光器和SerDes）。这个数字不仅远优于所有传统光学方案，甚至比带DSP的铜互连方案还要低。带宽密度则达到了160Gb/s/平方毫米——分别是LPO的123倍、2.5D CPO的6.6倍。

系统级设计优势：能效碾压与面积革命

为验证Passage在实际系统中的表现，研究团队对比了三条技术路线来构建512个GPU包的scale-up pod：LPO、2.5D CPO，以及Passage光中介层。所有方案均采用448Gb/s的端口带宽和单层交换（SLS）拓扑。

在能效方面，对于32Tb/s单向带宽的GPU，Passage的总功耗仅为传统光学方案的1/2.8。具体来看，LPO的总能耗为13pJ/bit，2.5D CPO为12pJ/bit，而Passage只有4.3pJ/bit。其中Passage的片内能耗为3.2pJ/bit，片外激光器仅1.1pJ/bit，且这部分不占用GPU的功率预算。面积上的差距更为显著。要实现32Tb/s单向带宽，LPO方案需要10个OSFP-XD模块，占据超过20000平方毫米的板级面积；2.5D CPO方案需要3个12.8T光引擎，导致GPU封装面积增加23%；而Passage光中介层仅额外增加200平方毫米的面积，GPU封装面积仅增加3.5%，几乎可以忽略不计。

在交换机设计上，Passage的优势同样一目了然。要构建512端口、200Tb/s的单层交换机，LPO和2.5D CPO方案因岸线资源紧张，均需采用4个全掩模版设计；而Passage将SerDes分散到整个芯片面积上，在更小的封装内即可实现相同带宽，每台交换机还能节省1.5kW功耗。

万亿参数MoE训练实测：2.7倍加速的底层逻辑

研究团队开发了一套专用的LLM训练性能分析工具，对一个4.7T参数的MoE模型进行了建模验证。该模型为120层解码器-only架构，模型维度12288，128个注意力头，训练配置了32768个GPU，张量并行度16，数据并行度256，流水线并行度8，全局批量大小4096，序列长度8192，训练数据量13T tokens。

对比测试设置了两类系统：传统电互连系统，scale-up pod大小144个GPU包，单GPU单向带宽14.4Tb/s；Passage光学系统，scale-up pod大小512个GPU包，单GPU单向带宽32Tb/s。同时测试了四种不同的专家配置，从1/32（激活1个/共32个专家）到8/256（激活8个/共256个专家），基本覆盖了当前主流MoE模型的架构特征。

测试结果颇具启发性。当两种系统都采用512 radix的相同拓扑时，Passage凭借更高的带宽优势，在所有专家配置下都能获得1.3到1.4倍的训练加速。而在实际系统配置下，随着专家粒度变细、激活数量增多，Passage的优势呈指数级放大：在1/32专家配置下加速1.6倍，在最复杂的8/256专家配置下，加速比直接飙升至2.7倍。

这背后的逻辑其实不难理解：Passage将scale-up域的规模从144个GPU包扩展至512个，原本需通过低速scale-out网络传输的专家并行通信，现在能在高速scale-up域内完成。在传统系统里，专家并行通信受限于scale-up域的大小，大部分流量不得不走1.6Tb/s的以太网链路，成为性能的“肠梗阻”；而Passage系统能容纳更多专家并行组在高速域内，这一瓶颈自然消除。再加上高带宽的加持，即使专家粒度更细、通信量更大，依然能保持接近线性的扩展效率。更值得一提的是，Passage的架构优势还简化了MoE模型的训练流程。传统系统为防网络拥塞，需设计复杂的负载均衡策略和设备限制路由；而Passage的高带宽和大scale-up域让这些限制变得不再必要，专家可更灵活地被调度和利用，系统整体效率进一步提升。

结论与未来

Lightmatter的这项研究，首次系统性地证明：3D集成光学是突破AI训练集群scale-up瓶颈的终极方案。Passage平台凭借革命性的3D堆叠设计，同时实现了能效、带宽密度和扩展能力的跨越式提升——scale-up域规模翻了8倍，万亿参数MoE模型的训练速度提升了2.7倍。而且，随着模型规模和专家复杂度的持续增长，这一优势只会愈发明显。

来源：https://cloud.tencent.com.cn/developer/article/2692358

其他