游乐游手机版
首页/AI热点日报/热点详情

AI算力需求暴增 HBM与GDDR SDRAM将成为AI芯片的新内存方案

类型:热点整理2026-07-03
AI算力狂奔,内存先“卡脖子”了 经历了几年的爆发式增长,AI早已不是实验室里的新鲜概念,它已经渗透到工作与生活的方方面面,成为高效的生产力工具。然而,在这股热潮背后,一个更棘手的挑战正逐渐浮出水面:AI对算力的需求仿佛是个无底洞,永无止境。 OpenAI的一份报告揭示了一个相当惊人的数字:从201

AI算力狂奔,内存先“卡脖子”了

经历了几年的爆发式增长,AI早已不是实验室里的新鲜概念,它已经渗透到工作与生活的方方面面,成为高效的生产力工具。然而,在这股热潮背后,一个更棘手的挑战正逐渐浮出水面:AI对算力的需求仿佛是个无底洞,永无止境。

OpenAI的一份报告揭示了一个相当惊人的数字:从2012年到2019年,AI训练集的数据量暴涨了30万倍,大约每3.43个月就翻一番。相比之下,如果按照摩尔定律的传统速度,最多只能增长12倍。为了满足这些“饥饿”算法的需求,业界也是全力以赴——定制AI芯片、重构硬件、推动算法创新,多管齐下。

但仅仅盯着算力还不够,内存带宽同样是致命的瓶颈。这就不得不提到经典的冯·诺依曼架构。简单来说,该架构的最大特点就是“计算”与“内存”分离——每次计算,都必须先到内存中取数据,计算完成后再存回去。早期,处理器与内存速度相差不大,这个短板并不明显。然而,随着摩尔定律推动处理器性能飞速狂奔了几十年,主流的DRAM方案提升速度却像原地踏步一样缓慢。

更关键的是,AI时代的数据搬运量呈爆炸式增长。以高级驾驶员辅助系统(ADAS)为例,L3级及以上的系统处理复杂数据时,需要超过200 GB/s的内存带宽。复杂的AI/ML算法在自动驾驶场景中必须快速完成海量计算并实时决策。到了L5级完全自动驾驶,车辆需要独立应对动态的交通标志、信号灯,还要精确预测周围汽车、自行车、行人的行为——所需的内存带宽,数字将大得惊人。

因此,AI芯片必须尽快找到新的内存解决方案。目前来看,HBM和GDDR SDRAM(简称GDDR)是两条最可靠的路径。

为什么是HBM和GDDR?

先说HBM(高带宽内存),这项技术早在2013年就被JEDEC列为行业标准。按照AMD的说法,这种新型内存芯片就像摩天大楼一样,可以垂直堆叠多层。这样一来,信息交换的距离大大缩短。堆叠好的芯片通过一个被称为“中介层”的超快互联方式,与CPU或GPU相连。尽管HBM堆栈并未物理集成到处理器内部,但通过中介层的紧凑连接,它几乎能拥有芯片内集成RAM一样的特性。更重要的是,这种独特设计在功耗、性能和尺寸方面,给开发者带来了实实在在的好处。

从2013年的第一代HBM,到2016年的HBM2,再到2018年的HBM2E,JEDEC一直在不断更新标准。在HBM2E规范下,当传输速率达到每管脚3.6 Gbps时,每个堆栈的内存带宽飙升至461 GB/s。而且HBM2E支持12个DRAM堆叠,单堆栈容量可达24 GB。具体来说,每个HBM2E堆栈通过1024条数据“线”连接到处理器,再加上命令和地址线,总共有大约1700条线。这么多线在标准PCB上根本无法布线,因此必须使用硅中介层进行连接——类似于SoC内部,在硅中介层上蚀刻出精细的走线,才能达到HBM接口所需的线数。

凭借如此巨大的带宽,四个HBM2E堆栈连接到一个处理器上,总带宽就能超过1.8 TB/s。3D堆叠内存用极小的空间实现了超高带宽和容量,同时通过保持相对较低的数据传输速率,让内存紧挨着处理器,整体系统功耗也得到了有效控制。Rambus的数据显示,HBM2E性能出色,它带来的额外制造成本在很大程度上被节省的电路板空间和功耗所抵消。在数据中心那种寸土寸金的地方,HBM2E紧凑的结构优势显而易见——而且它功耗低,散热负荷小,要知道冷却成本通常是数据中心最大的运营支出之一。

正因如此,HBM2E成为AI芯片的首选,英伟达的Tesla A100和谷歌的二代TPU都采用了它。但话说回来,HBM的独特设计也导致其复杂性和成本远高于其他方案。这时,GDDR就派上了大用场。

图形DDR SDRAM(GDDR SDRAM)最初是二十多年前为游戏和显卡设计的。这些年它经历了多次革新,最新一代GDDR6的数据传输速率达到16 Gbps。GDDR6在带宽、容量、延迟和功耗方面表现都很出色——工作电压从1.5V降到1.35V,能效更高;同时,它的传输速率(16 Gbps vs 8 Gbps)和容量(16 GB vs 8 GB)都比GDDR5翻了一番。Rambus甚至演示过运行速度达18 Gbps的GDDR6接口,说明这种架构仍有成长空间。

与HBM2E不同,GDDR6 DRAM采用与标准DDR式DRAM相同的大批量制造和组装技术——通过标准PCB将封装好的DRAM与SoC连接起来。这种现成的基础设施和流程,为系统设计者提供了熟悉度,大大降低了成本和实现难度。

HBM2E的特点是“宽而慢”,而GDDR6恰恰相反——“窄而快”。两个16位宽的通道(共32条数据线)将GDDR6 PHY连接到对应的SDRAM。GDDR6接口以每针16 Gbps的速度运行,可提供64 GB/s的带宽。拿之前提到的L3级汽车场景来计算,一个GDDR6内存系统,接上四个DRAM设备,带宽就能达到200 GB/s。

当然,GDDR6的主要设计挑战恰恰源于它最强的特性——速度。在低电压条件下运行16 Gbps的信号,要保持信号完整性,需要大量专业经验。设计人员面临更紧的时序和电压裕量损失,这些损失的来源和影响正在迅速增加。系统的接口行为、封装和电路板都需要相互配合,因此必须采用协同设计方法来保证信号完整性。

总的来说,GDDR6内存的性能优势建立在久经考验的成熟制造工艺之上,是AI推理的理想方案。出色的性价比使其非常适合广泛应用于边缘网络和物联网终端设备。

Rambus将扮演重要角色

从上文可以看出,HBM2E和GDDR6在AI领域地位关键。但要真正将这些方案落地到AI芯片中,IP供应商是至关重要的一环——Rambus正准备扮演这个角色。

Rambus成立于上世纪90年代,是一家领先的Silicon IP和芯片提供商,核心使命是让数据传输更快、更安全。从产品线来看,主要聚焦三大块:基础架构许可、Silicon IP授权以及buffer chip芯片业务。得益于这些深厚积累,他们能够提供友商无法比拟的差异化服务。

首先,在内存IP层面,Rambus提供一站式采购和“turn key”服务。去年他们收购了全球知名的IP控制器公司Northwest Logic以及Verimatrix的安全IP业务,这使得一站式服务能力进一步增强。通过这种服务,客户能够更早地将产品推向市场。

其次,作为全球领先的HBM IP供应商,Rambus在全球已拥有50多个成功项目案例,经验积累深厚。在DDR5 Buffer Chip方面,他们也做到了全球首发,这让他们有信心在DDR5时代改变市场格局。对于AI芯片迫切需要的HBM2E和GDDR6 IP,Rambus都已准备就绪。

从Rambus IP核产品营销高级总监Frank Ferro的介绍来看,他们将HBM2E的性能提升到了4 Gbps——这被认为是一个全新的行业标杆。而此次发布的新HBM2E产品正是实现了这一最高标准。

根据Rambus的白皮书,他们的HBM2E接口完全符合JEDEC JESD235B标准,支持每个数据引脚高达3.6 Gbps的传输速率。接口有8个独立通道,每通道128位,总数据宽度1024位。由此每个堆栈支持461 GB/s带宽,堆栈由2、4、8或12个DRAM组成。

这是一个为2.5D系统设计的IP,需要在3D-DRAM堆栈与SoC上的PHY之间通过中介层连接信号。这种信号密度和堆积尺寸的组合需要特殊的设计考量。为了便于实施并提高设计灵活性,Rambus对整个2.5D系统进行了完整的信号和功率完整性分析,确保所有信号、功率和散热要求都达标。相比竞争对手,Rambus的HBM IP有几点核心优势:

第一,提供完全集成且经过验证的PHY及内存控制器IP解决方案,在物理层面实现完整的集成互联。除了完整的内存子系统,他们的PHY也经过硬核化处理并完成了时序收敛。“我们给客户的不仅仅是IP授权,还有系统级的全面集成支持、工具套件和技术服务,帮助客户进一步降低设计实现难度。”Frank Ferro补充道。发布这个IP后,Rambus将为AI/ML客户提供更完整的解决方案,帮助他们提升带宽。

第二,Rambus拥有非常强大的HBM生产经验,全球已有超过50个成功客户案例,名列前茅。更重要的是,所有合作客户的芯片从设计到原型再到投产,都不需要任何设计返工,基本都是一次成功——这足以证明其技术实力。

第三,为客户提供非常完整的参考设计框架,其中最重要的一点是如何更好地对中介层进行完整设计和表征化处理。“因为中介层是PHY层和DRAM层沟通的重要环节,速度非常快,如何保证信号完整性是必须考虑的问题。”Frank Ferro表示,他们与客户紧密合作,提供完整的参考设计框架,帮助客户设计自己的中介层和封装,同时做仿真分析,对每个信号通道进行完整分析,以实现产品最高性能。

第四,Rambus有一套重要工具——Lab Station。借助这个工具,他们与客户合作,让客户直接将HBM2E解决方案插入终端系统,构建独立的存储-子系统。

能在HBM2E IP上取得这样的成就,一方面归功于Rambus的研发投入,另一方面也得益于他们与SK海力士、AIChip和台积电的紧密合作。SK海力士为Rambus提供了3.6 Gbps数据传输速率的HBM2E内存,双方又将速率推进到了4.0 Gbps;AIchip提供了ASIC解决方案和产品,帮助设计了中介层和封装;台积电提供了交钥匙的2.5D CoWoS封装解决方案。“我们的解决方案适用于AI/ML训练,也适用于高性能计算系统和5G网络的基础设施建设。”Frank Ferro最后总结道。

除了面向AI训练的HBM2E IP,Rambus还推出了面向AI推理的GDDR6产品。据白皮书介绍,Rambus的GDDR6接口专为性能和功率效率设计,支持AI/ML和ADAS推理所需的高带宽与低延迟。它由经过共同验证的PHY和数字控制器组成,提供一个完整的GDDR6内存子系统。Rambus GDDR6接口完全符合JEDEC GDDR6 JESD250标准,每个引脚支持高达16 Gbps,支持2个通道、每通道16位,总数据宽度32位,带宽为64 GB/s。

通过直接与客户合作,Rambus能提供完整的系统信号和电源完整性(SI/PI)分析,创建优化的芯片布线版图。客户收到一个硬核解决方案与全套测试软件,可以快速启动、定性和调试。

在“内存墙”的限制下,为了满足AI应用的数据搬运需求,产业界正在探索各种方法。比如英国AI芯片初创企业Graphcore就希望通过分布式内存设计来解决。而Rambus的这两个方案,给开发者在传统架构设计上提供了大幅提升性能的可能性。

来源:https://m.elecfans.com/article/1371086.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。