随着AI算力需求急剧增长,高性能内存HBM的价格正一路飙升。SK海力士透露,明年向英伟达供应的HBM4产品单价或将达到560美元左右。
这一价格不仅远超行业先前预估的500美元,更比当前HBM3E型号约370美元的报价高出50%以上。
面对高端HBM价格的暴涨,以及中国企业面临的技术封锁,华为最新开源的技术方案或许能缓解行业对这一硬件的依赖程度。
日前,华为正式发布并开源了面向AI推理加速的关键技术——UCM推理记忆数据管理。该技术通过智能分级存储机制,有效提升大模型推理效率。
UCM技术的创新点在于,它能根据数据的"记忆热度",在不同存储介质中进行智能分层缓存。比如将"实时记忆数据"存于HBM,"短期记忆数据"放至DRAM,而SSD则负责存储"长期记忆与外部知识"。

其核心优势在于能分级管理推理过程中产生的KV缓存数据,充分利用不同存储介质的特性,既提升HBM利用率,又平衡整体系统成本。
这项技术开源的重要意义在于,让更多开发者和企业能够通过记忆数据分级管理,降低对高端HBM的依赖。
华为表示,基于UCM技术可实现首Token时延最高降低90%,系统吞吐量提升22倍,并支持10倍级上下文窗口扩展。
当然,UCM并非要取代HBM,也无法完全替代HBM。它更像是一块"系统补强板",把HBM的优势发挥在最适合的场景,实现降本增效的目标。

