AI工作负载的持续扩张,对DRAM的容量和带宽提出了近乎无止境的需求,这正将现有的GPU-HBM架构推向性能的“天花板”。为了应对未来更复杂的AI计算挑战,整个行业已经开始酝酿一场架构层面的革新。有趣的是,这一思路与当前数据中心大规模引入光互连的趋势不谋而合——没错,研究人员正在认真考虑,用“光”来重新连接GPU和内存。
最近有行业分析指出,一种碘伏性的设计思路正在被讨论:与传统上将HBM内存紧挨着GPU封装在一起的做法不同,新方案计划将GPU和HBM进行物理上的分离封装,两者之间通过高速光链路进行通信。这么做的最大好处是什么?很简单,它能让一颗GPU摆脱物理空间的束缚,连接上数量远超当前设计的内存模块。

回顾一下现状就不难理解这种变革的紧迫性。目前,行业提升HBM容量的主要途径是垂直堆叠更多的DRAM芯片层数。然而,当堆叠层数从12层、16层迈向20层甚至更高时,制造工艺变得极其复杂,成本呈指数级攀升,物理和散热上的限制也日益凸显。另一种思路是在GPU旁边放置更多的HBM模块,但这同样受限于2.5D封装的基础架构:GPU和所有HBM模块必须共享同一块硅中介层或封装基底,其可用面积从根本上框定了内存扩展的上限。
于是,“分而治之”成了自然的解题思路。将GPU和HBM拆分成独立的封装体,理论上就能绕过物理空间的限制。但问题也随之而来:更长的物理距离必然引入更高的信号延迟和功耗。这时,光互连技术的优势就显现出来了——利用光信号进行远距离传输,恰恰能有效抵消分离封装带来的性能损耗。
据了解,业界对于这种新架构的具体形态仍在积极探讨中。核心议题之一,就是如何重新排布HBM与GPU板卡的位置关系。讨论范围相当广泛,例如,是否可以将HBM模块放置在GPU板卡下方的空间,从而更高效地利用系统内的三维空间。
毫无疑问,这种架构如果落地,将彻底重塑芯片封装和互连的设计规则。因此,众多封装与测试厂商都在紧密跟踪这一趋势,尤其是其中涉及的光子集成技术。当然,挑战也异常艰巨。关键难点在于,如何将通常用于大型数据中心光网络的技术,“微缩”到单块板卡甚至芯片内部的尺度上。在寸土寸金的受限空间内实现高密度、低损耗的光链路,要求光子器件必须做得更小、集成度更高,这无疑是对现有工程能力的极限考验。
