11月6日最新消息,随着人工智能算力需求呈现爆发式增长,高性能内存HBM的价格正一路走高。SK海力士已确认,明年向英伟达供货的HBM4单价将达到约560美元。
这一价格不仅高于业界早前预估的500美元左右,更比当前HBM3E的约370美元定价高出超过50%。
面对高端HBM价格的急剧攀升,以及国内企业正面临的技术出口管制,华为最新开源的技术方案或将成为缓解相关产品依赖的突破口。
就在近日,华为正式宣布推出面向AI推理加速的关键技术——UCM统一缓存管理,并将其全面开源。
UCM技术的创新点在于,它能根据数据的"记忆热度和使用频率",在不同层级的存储介质中进行智能缓存。比如将最活跃的"实时记忆数据"保留在HBM中,将"短期记忆数据"存入DRAM,而SSD则负责存储"长期记忆数据与外部知识库"。

这项技术的核心优势在于对推理过程中产生的KV缓存数据进行精细化管理,充分发挥不同存储介质的性能特点,从而显著提高HBM的利用率,实现整体成本的最优平衡。
而开源的重要意义,在于让更多开发者和企业能够利用记忆数据分级管理技术,有效降低对高端HBM产品的依赖程度。
华为方面透露,基于UCM技术方案,系统可实现首Token延时最高降低90%,吞吐量峰值提升22倍,并支持上下文窗口扩展至10倍规模。
当然,我们需要明确的是,UCM并非要取代HBM,也无法完全替代HBM的作用。它更像是一块"系统短板补强模块",让HBM的优势在最适合的场景中得到充分发挥,最终实现降本增效的目标。

