11月5日消息,据官方披露,华为近日正式开源了其在AI推理加速领域的关键技术——UCM(统一缓存管理器)推理记忆数据管理框架。
作为核心创新,UCM以KV缓存多级架构与推理记忆管理为基石,通过推理框架、算力资源和存储系统的深度协同,有效攻克长序列场景下推理效率低、计算成本高的技术痛点,让企业用户能够享受更流畅高效的AI推理服务。

据悉,UCM融合了多种缓存加速算法工具集,可对推理过程中产生的KV缓存记忆数据实施精细化的分级管理。
该技术具备四大核心能力:稀疏注意力机制、前缀缓存优化、预填充卸载策略以及异构PD解耦架构。
实测数据显示,UCM可使首Token时延降低最高达90%,系统吞吐量实现22倍的跨越式提升,同时支持十倍级上下文窗口扩展,为AI推理性能带来显著突破。
目前,UCM基础框架与工具链已在ModelEngine社区全面开放,开发者可通过社区渠道获取完整源代码与技术文档。
UCM产品架构
