据来自IT之家2月4日的消息,以及“华为计算”今日发布的信息显示,随着大语言模型的快速发展,模型参数量已攀升至千亿乃至万亿级别。作为一种混合专家架构,MoE凭借其能够兼顾模型容量与计算效率的独特优势,正成为人工智能领域的关键研究方向。
在此背景下,南京大学李猛博士团队依托南京大学鲲鹏昇腾科教创新孵化中心的算力支持,基于华为昇腾平台,开展了以专家等价性为驱动导向的MoE无损显存高效优化研究。团队成功攻克了一系列技术瓶颈,实现了显存消耗降低超过50%、推理延迟显著提升的重要突破。

该项目聚焦于MoE模型部署的核心痛点:大参数量模型部署时,高显存占用导致仅有少量热专家能常驻内存,大量参数需要在内存与显存间频繁切换,引发严重的推理延迟问题。同时,对自主化硬件适配的需求也日益迫切。
团队基于对MoE专家冗余性与等价性的创新性观察,提出了一套软硬件协同优化方案。通过四项核心技术构建了异构推理混合部署框架,实现了全链路效率提升。
首先,团队创新性地设计了三段流水线并行架构,将参数加载、CPU串行计算与GPU并行推理深度重叠,大幅减轻了数据传输压力,使计算与参数传输得以高度并行。其次,突破传统路由机制,根据专家等价性将专家划分为高、中、可替代低分三类,优先缓存核心专家,并利用等价专家灵活替代未加载的低分专家,显著减少了冗余传输与显存占用。第三,首创了共享专家引导的在线预取机制,无需离线训练即可精准预测后续所需专家,提前完成参数加载,有效隐藏预取延迟。最后,设计了双指针动态负载均衡算法,根据任务规模智能分配CPU与GPU算力,充分发挥异构计算的优势,规避了为小批量任务加载额外数据而引起的延迟问题。
依托昇腾平台的硬件特性与CANN软件栈,团队针对性研发了异构推理加速引擎MoE-Ascend。该引擎涵盖动态专家路由管理、专家预测预取、算子适配等核心功能模块,实现了在昇腾平台上的深度适配与性能优化。
该引擎可支持昇腾等多种硬件环境。在保持模型精度无损的前提下,不仅将显存消耗降至原方案的一半,推理速度也较同类方法提升了2倍以上,并将显存缓存命中率提升至70%以上,成功打破了MoE模型对国外高端硬件的依赖。
该项目构建的推理优化工具链,计划开源至昇腾社区、DeepModeling社区及GitHub平台,供科研与工程开发者复用和扩展。
未来,项目成果将应用于AI推理平台、智能客服、语音生成等多个场景。尤其能够适配昇腾等自主NPU部署环境,为边缘侧智能服务提供有力支撑。
