11月5日,华为对外宣布将UCM(统一缓存管理器)技术正式开源。作为AI推理加速的关键技术,UCM通过高效管理KV缓存与推理记忆数据,有效解决了长序列推理场景中计算效率低、成本高的行业难题。
UCM以KV缓存多级存储及推理记忆管理为核心,通过推理框架、算力与存储的三层协同设计,显著提升企业级AI推理任务的处理效率与响应速度。

据了解,UCM融合了多种缓存加速算法工具,可对推理过程中产生的KV缓存数据进行分级管理,实现计算资源的动态优化。
该技术具备四大核心能力:稀疏注意力机制、前缀缓存技术、预填充卸载功能及异构PD解耦架构,从多个维度突破传统推理瓶颈。
实际测试数据显示,UCM可使首Token延迟最高降低90%,系统吞吐量实现22倍提升,并支持十倍级上下文窗口扩展,为大规模语言模型推理提供了强劲的算力支撑。
目前,UCM已在ModelEngine社区开放基础框架与工具链,开发者可通过社区获取完整的源代码与技术文档,快速集成这一领先的推理加速方案。

UCM产品架构
