全面解析突破内存墙的常用技术与核心方法

时间：2026-06-30 13:58

先从最近的一个信号说起——高通发布了一款面向AI数据中心的高带宽计算架构（HBC，High-Bandwidth Compute），他们自己的说法是，这套架构能让单位Token能耗更低、有效存储带宽更高，同时拉低系统总体拥有成本。一句话总结：不堆料，直接重新设计存储和算力的连接方式。其实，当前大模型

先从最近的一个信号说起——高通发布了一款面向AI数据中心的高带宽计算架构（HBC，High-Bandwidth Compute），他们自己的说法是，这套架构能让单位Token能耗更低、有效存储带宽更高，同时拉低系统总体拥有成本。一句话总结：不堆料，直接重新设计存储和算力的连接方式。

其实，当前大模型落地遇到的最棘手瓶颈，早已不是算力芯片本身不够强，而是整个行业反复在说的那个词——"内存墙"。过去，最粗暴的解法就是不断加显存、堆硬件。但到了今年，行业的共识已经明显转向：不再单纯靠硬件堆料硬扛，而是走两条互补路径——一边是用软件盘活存量，一边是在硬件层面重构底层。说白了，就是全产业链协同，用巧劲去撬动这堵越来越厚的存储墙。

01 AI推理存储矛盾越发激化

我们先拆解一下"内存墙"的本质。问题很简单：CPU和GPU的算力提升速度，远远超过了内存读写带宽和延迟的提升速度。算力芯片跑得飞快，但数据取不出来、存不进去，处理器大部分时间只能干等着，白白浪费。这就在算力和存储之间撕开了一道巨大的鸿沟。

数据也很直观：从2024到2026年，主流大模型的参数量暴涨了上百倍，上下文窗口从万字级扩展到了百万字级。但服务器的内存带宽，年均提升还不到15%，远远落后于AI业务的增速。软硬件的迭代速率严重错配，内存资源的低效浪费问题全面爆发。

当前AI推理产业面临的存储困境，可以归纳为三重，而且都不是靠传统硬件扩容就能解决的。第一，显存和高端内存极度稀缺。单台AI推理服务器的DRAM和HBM消耗量，是传统数据中心服务器的十倍以上。全球将近六成的DRAM晶圆产能，已经被AI集群占掉，消费电子和中端服务器的产能持续被挤压，HBM更是长期处于"锁单缺货"状态。第二，存储资源利用率极低。传统架构下，GPU没法直接调度外部存储，大量低频KV缓存、闲置权重参数一直盘踞在高价的HBM显存上，推理过程中的临时张量、碎片化缓存，又额外占掉30%以上的内存，资源浪费触目惊心。第三，存储成本居高不下。内存相关的支出，已经占到AI服务器硬件总成本的一半以上。中小企业因为存储门槛，根本没法落地大模型服务；头部厂商自己也因为存储产能限制，没法无限扩容推理集群。

面对这些难题，各大企业都在布局针对性的软硬件存储优化技术。精细化的调度、数据压缩、架构重构、生态联动——多种手段齐上，全面破解内存墙桎梏。

02 算法重构存储调度逻辑，盘活存量存储

软件层面的革新，核心逻辑其实就一条：不新增任何存储硬件，而是通过压缩、分层调度、跨设备资源复用，把服务器上闲置的内存和闪存盘活，削减高价显存的无效占用。这条路径落地门槛低、见效快，是当下行业的主流过渡方案。市面上各类厂商自研的工具、量化算法，本质上都是这套思路的具体落地。

行业不约而同地把KV缓存作为显存消耗的核心攻坚对象，优化方向分成了两大分支。第一个是无损低比特量化压缩。它跳出传统量化会损伤模型精度的局限，靠数学变换和误差校正机制，在极低比特位宽下维持模型输出效果，直接压缩显存占用、拉高推理吞吐。谷歌推出的TurboQuant是这条路线的一个典型验证案例——依靠极坐标变换与误差校正，实现了3比特近乎无损的KV缓存压缩，实测在长文本场景下，显存占用压缩了6倍，推理吞吐提升了8倍。英伟达的NVFP4量化套件也走的是同一个逻辑，3比特档位的精度损失控制在0.8%以内，而他们的研究团队还提出了一种KVTC（KV缓存变换编码）技术，把压缩的理论上限推到了20倍，进一步印证了低比特压缩的潜力。

▲ TurboQuant的缓存压缩性能图（来源：谷歌正式）

第二个方向是全域分布式分层调度。打通GPU、HBM、主机DRAM、本地闪存、远端存储等多层介质，靠冷热数据自动分流，打破单卡显存孤岛，降低硬件综合成本。英伟达的Dynamo 1.0推理操作系统搭配BlueField-4 CMX平台，就是这套机制的完整落地——自研的缓存管理和低延迟RDMA传输模块，能自动区分高、中、低频上下文，把温冷缓存下沉到共享存储池，在GB200集群实测中，MoE模型吞吐最高提升7倍，单位Token硬件成本下降40%。AMD收购的MEXT推出的AI预测内存技术，则补充了闪存扩容分支的落地案例——通过算法抹平闪存与DRAM的性能差距，实现可用内存扩容2到4倍，基础设施成本减半，完善了低成本扩容的软件解法。

整体来看，所有软件技术都围绕"存量挖潜"展开。只是各家厂商基于自身的芯片、DPU、处理器硬件禀赋，在压缩、集群调度、闪存扩容等不同侧重点上做了选择，但底层目标完全一致。

03 重塑存算物理底层，消耗传输损耗

软件优化毕竟只能在现有硬件框架内做资源再分配，它突破不了芯片互联和存储介质的物理上限。要承载万亿参数模型、大规模AI智能体并行任务，就必须重构存算协同的底层硬件架构。

当前行业因此分化出三条主线。第一条：拉高单节点高速存储上限，打造一体化高性能整机集群。核心思路是提升原生HBM规格、增加专用存储硬件来分担缓存压力，重构总线通路实现GPU直连外部存储，搭建多层级硬件存储底座。比如，专门为破解长上下文KV缓存显存挤占问题而设计的BlueField-4 STX专用存储机架，就是英伟达Vera Rubin全栈AI计算存储平台的核心落地方案。整套平台以NVL72 GPU机架作为算力底座，单卡搭载288GB HBM4，单机架合计20.7TB高速显存，用来存放超低延迟实时交互的热数据；STX机架则新增独立CMX上下文存储层，作为外置共享缓存池，承载海量复用型KV缓存，从硬件层面拆分冷热数据、分流显存负载。相较传统方案，集群Token处理效率提升了5倍。此外，英伟达与亚马逊联合推出的GIDS直通技术，实现了GPU绕开CPU直连SSD，整机有效可用存储硬件扩容16倍。这套分层架构的实测证明，依靠外置专用存储池分担显存压力，可以稳定支撑百万Token超长上下文、上千智能体并行的高负载推理场景。

第二条路线：搭建标准化通用共享内存池，走开放兼容路线。依托通用互联协议，打通全品类算力与存储，把分散的内存资源整合成统一的逻辑池。它不绑定自有硬件，能适配多品牌混合部署。英特尔以CXL 2.0架构为核心落地了这套方案——依靠至强6代处理器的原生协议，打通CPU、GPU、FPGA与各类内存介质，并联合阿里云、腾讯云、美光完成了商业化落地。这是当前跨节点内存共享成熟度最高的方案，用产业生态合作的成果，验证了开放内存池的规模化落地能力。

▲ 来源：英特尔正式

第三条路线：补齐大容量低成本高速存储介质，构建混合分层存储体系。针对HBM带宽虽高但容量小、造价昂贵的短板，研发新型高带宽闪存作为中频缓存载体，形成"HBM热数据 + HBF中频缓存 + 普通闪存冷数据"的三级硬件架构。SK海力士与闪迪联合研发的HBF高带宽闪存，就是这条路线的核心验证载体——单模块最高512GB，容量是同规格HBM的8到16倍，读取性能远超传统SSD，还能降低成本。

▲ HBF堆叠架构示意图（来源：Tom's Hardware）

与上述三种方式不同，高通最近提出的HBC高带宽计算3D堆叠架构比较新颖——它把翻跟斗直接放到LPDDR堆栈下方，通过TSV直连来规避HBM的高成本。最新数据显示，HBC相较传统HBM实现了每瓦带宽提升6倍，对比SRAM达成了每瓦容量提升200倍。第一代HBC Gen1搭载在AI250上，单卡读写带宽133TB/s，相比AI200带宽提升了18倍；新一代HBC Gen2赋能Dragonfly AI300推理翻跟斗，整体性能比AI200提升了54倍，单卡每瓦内存带宽相较主流GPU架构高出4到8倍。

业内专家的判断是：软件算法负责短期降本和缓解显存紧缺，革新的硬件架构则负责打开长期性能天花板。软硬协同、分层混合存储，将是未来很长一段时间破解内存墙的核心产业路径。它的影响远不止于推理提速和硬件成本下降——它还会重塑全球存储供需格局与定价体系，降低中小企业落地大模型的硬件门槛，同时缓解行业普遍存在的内存资源浪费问题。

来源：https://36kr.com/p/3874043326485510

其他