字节跳动旗下的豆包应用在用户端快速走红,无疑为A股市场的算力基础设施板块注入了强劲动力。应用端的创新突破,加上随之而来的巨额资本支出,正倒逼国内其他AI企业加速追赶,努力缩小与领先者的差距。
放眼全球人工智能领域,由于算力需求的增长速度已经超越单个芯片性能提升的节奏,一场全新的AI基础设施升级浪潮已然拉开帷幕。博通强势介入,让大型科技公司终于获得了摆脱英伟达芯片垄断地位的底气。
新一批的“卖铲人”——即算力产业链上游供应商,已经开始布局入场。
AI基建进入2.0时代
AI基础设施的投资远不止是简单堆叠GPU。其背后涉及高速互联、存储、光通信、交换机等众多关键环节。这些环节共同构成了我们常说的“算力、存力、运力”铁三角。
AI服务器集群与传统服务器集群的最大区别在于增加了GPU模组。从存储能力角度看,如果HBM(高带宽存储器)的容量和带宽增速跟不上芯片算力的提升,就会遭遇“内存墙”瓶颈,最终限制算法性能的发挥。
从服务器层面分析,算力网络内部光模块的需求量直接由集群中GPU的数量决定。每台服务器的网络端口数量随之同步增长,按比例推算便能清晰看到需求量的惊人规模。
这一逻辑在AI基建1.0版本时期就已经得到验证。国内的光模块“三剑客”,以及美国的博通、迈威尔科技,都是早期的受益者。
那么,现在的逻辑发生了什么变化?
首先,超大规模算力集群已初具雏形。Meta此前宣布,计划在2024年底继续扩大基础设施建设,其中包括配置35万颗H100 GPU。未来,AI算力集群的规模上限将远远超过百万颗GPU。生成式AI应用需要处理和分析海量数据,这些任务常常超出单个计算节点的能力范围,因此必须在多个节点之间分摊工作负载。而这一切的前提,是节点之间的通信必须畅通无阻。
英伟达的做法被称为“Scale up”。通过NVLINK Switch提升GPU之间的通信速率,将多个GPU组合成一个超级GPU节点。即使单节点性能已接近极限,在高速互联环境下,张量并行计算也能获得显著提升。
值得注意的是,实现高速互联的方案现在已不再局限于光模块,铜互联也被纳入考量。因为在短距离连接场景中,相比光互连,铜互联在成本和功耗方面具有明显优势。以英伟达GB200 NVL72为例,800G光模块的市场平均单价约为430美元,整个机柜的光模块购置成本高达55.7万美元。相比之下,使用铜缆互联能节省约6倍的成本。正因如此,在短距离连接场景中,高速铜互连方案已逐渐被海外大型云服务厂商采纳。
其次,去年AI芯片的几乎所有增量都被英伟达一家垄断。但随着以博通ASIC为代表的芯片合作模式得到验证,科技巨头们开始加大自研算力的部署力度。过去,英伟达可以将GPU和互联方案打包强推给科技巨头。但现在,巨头们与博通联手打造芯片集群,选择更加多样化,这反过来又激发了高速互联、交换机等配套需求。亚马逊在12月初发布了Trainium2推理芯片,其单机柜可放置两台Trainium2服务器,两个机柜之间通过有源线缆连接。此外,谷歌、X.AI也都在使用定制线缆。
除了业绩指引亮眼的博通,数据中心的上游配套供应商今年终于能看到实际的业绩增长。安费诺是高速率连接器领域的龙头,也是英伟达高速铜缆组件的主要供应商。在刚刚过去的第三季度,公司销售额同比增长26%,其中来自AI产品的贡献最大。另一家公司Credo,主要提供高速连接线材,其近期大热的AEC产品是主要看点。在月初公布的财报中,公司表示AEC已在下游AI领域放量,这佐证了科技大厂对高速线缆的旺盛需求。业绩公布后次日,公司市值一天就涨了近50%。
什么是AEC?
对于AI算力集群而言,最小化能耗和成本至关重要。英伟达的策略是尽可能多地部署高速铜缆。今年推出的GB200机架方案中,采用了超过5000根铜缆连接GPU,总长度超过2英里。按照下半年出货、明年成为主力产品的节奏,市场对铜缆潜在需求量的预期十分乐观。根据机构预测,仅GB200出货量拉动的铜缆需求,到2025年的市场空间就将达到约64亿美元。未来新产品方案的设计,对高速铜缆的需求还会不断迭代升级。
数据中心交换网络的连接方案主要包括光模块+光纤、有源光缆AOC和直连铜缆DAC。铜缆为短距离连接提供高带宽和优异性能,是一种经济高效的解决方案。而光缆利用光纤提供更高的带宽,适用于更长的距离,多用于不同机架之间的连接。想要实现成本最低的高速互联,同时降低功耗和延迟,铜互连是性能和成本之间的一种折中方案。
DAC是一种两端带有固定接头的铜缆组件,广泛用于数据中心的短距离连接,长度通常为1至7米,传输速率最高可达224Gbps。它可以进一步分为有源DAC和无源DAC。无源DAC在电缆端直接连接,通过铜线传输,在没有信号调节时直接进行传输,覆盖距离不超过3米,通常用于系统内部的机架连接。
有源DAC则包含ACC(有源铜缆)和AEC(有源电缆)。ACC内部添加了有源信号驱动器芯片,这些芯片能补偿铜传输造成的部分损耗,因此它们可以传输比无源DAC远2至3倍的距离。而AEC更进一步,在线缆两端引入了Retimer芯片,可以在传输开始和结束时清理、去除噪声并放大信号,从而进一步延长传输距离。虽然功耗和成本也会随之增加,但仍低于光缆AOC。总体来看,AEC和ACC的覆盖范围都比DAC更长,都适用于为短距离连接提供高带宽,是比较经济高效的解决方案。
每年投入上千亿资本开支的微软、谷歌等科技巨头,未来预算投入的一部分必然会流向互联设施,这是确定无疑的。由于NVLINK技术的存在,加上机柜密度足够高,英伟达使用DAC和部分ACC就已够用。但其他巨头要围绕自己的芯片集群做配套,整体算力密度不如英伟达,机柜内卡间距离更远,因此更倾向于性能出色的AEC。
机构大幅度的业绩修正,呼应了如今大型AI集群对高速电缆需求的积极变化。根据Lightcounting的最新报告,预计未来五年高速电缆的销售额将增长两倍以上,到2029年将达到67亿美元。相比之下,去年报告中对2028年销售额的估计只有28亿美元。除了市场本身扩容,主要的结构性变化在于,到2029年,DAC将逐渐把市场份额让给AEC和ACC。
那么,AEC一定能替代光模块吗?不一定。如果某些方案原本使用的是有源光缆,可能会被AEC替代一部分。但在1.6T甚至更高速度的互联领域,跨机柜较长距离的连接场景仍然首选光模块。整体方案来看,它们还是会搭配使用。
超大算力集群的竞赛并非只有海外巨头参与,国内几家头部玩家也在持续投入。字节跳动网传的明年1500亿元资本开支,加之其在应用端的出色表现,很可能会倒逼其他国内大厂奋起直追,在国内也上演一场AI军备竞赛。
那么,对于国内A股市场而言,投资机会又可能在哪里?
下一个光模块?
AI2.0基建对高速互联的需求非常明确。同时,随着自研ASIC的队伍不断壮大,超大规模XPU集群的建设将带动上游的光模块、交换机、PCB、高速线缆等用量的持续繁荣。
来自英伟达的映射最为直接。当前B200在逐渐上量,其供应商安费诺的配套产品线集结了众多国内上游供应商,例如乐庭智联、神宇股份、鼎通科技、奕东科技等。乐庭智联是沃尔核材的子公司,也是安费诺的核心线缆供应商。目前,无论是产品线、技术还是产能,都为承接大量订单做好了充分准备。可以预见,未来由产能和价值量提升带来的业绩增长潜力。公司曾在8月透露,部分单通道224G高速通信线产品完成了重要客户验证,已接到订单需求并陆续交付,目前整体占比较小。作为核心映射标的,其股价从2月最低点至今,市值累计翻了接近4.5倍。类似的海外配套供应商还有精达股份、鸿腾精密等。
高速铜缆组件由线材和连接器组成,上游提供材料,下游则是终端客户。在高速线材和连接器市场,国际巨头通过专利优势垄断了大量份额。AEC的主要供应商包括Astera labs、Broadcom、Credo、Marvell、Maxliner、Point2。
国内企业如鼎通科技、奕东电子,生产的组件需要经过客户集成其他功能后形成连接器模组,最终供应给下游客户。但未来随着国内算力建设加速,下游客户对国产化内部器件的需求会不断增长,国内供应商有望从细分器件层面逐步突破海外垄断。例如去年上市的华丰科技,在去年上半年已经成功研制出224Gbps高速背板连接器。在国内,新易盛在高速AEC电缆模块有所布局;瑞可达的AEC系列产品目前相关项目正在推进中;兆龙互连已规模化生产应用于传输速率达400G的高速传输电缆及组件产品,其无源铜缆和有源铜缆产品可根据不同情况提供解决方案。
从成本角度看,高速铜互连的单位价值量或许无法与光模块相提并论。但随着算力基建在规模量级上的突破,成本和性能将成为科技巨头们不得不去平衡的核心问题。一些短距离的互联场景,将逐渐被高速铜缆填充。这意味着,一批新的“卖铲人”正徐徐走进这个赛道,与光模块的故事极其相似,预先享受到了估值端的提升。
技术路线的迭代只是一个契机。对于国内企业而言,高速铜缆仍然具备比较高的门槛。从技术研发、产品验证,到进入供应链、收获业绩爆发增长,这个过程仍存在着不及预期的可能性。
