8月12日,华为重磅推出AI推理领域创新成果——UCM推理记忆数据管理器。
这款以KV Cache为核心的推理加速套件,创新性地整合了多类型缓存加速算法,通过分级管理推理过程中产生的KV Cache记忆数据,不仅能大幅扩展推理上下文窗口,还能在提升吞吐量的同时降低延迟,有效控制单Token推理成本。目前该技术已在中国银联"客户之声"、"营销策划"、"办公助手"三大业务场景落地应用,在智慧金融领域的AI推理加速实践中取得了显著成效。
根据华为公布的路线图,UCM技术将于2025年9月正式开源,届时将在魔擎社区进行首发。此后华为将逐步将该技术贡献给主流推理引擎社区,并与所有Share Everything(共享架构)存储厂商及生态合作伙伴共享这一创新成果。
