揭秘华为昇腾突破性MoE无损显存优化技术，显存减半

时间：2026-02-04 21:03

IT之家 2 月 4 日消息，据“华为计算”今日消息，随着大语言模型迅猛发展，参数量已迈入千亿甚至万亿级别，MoE（IT之家注：混合专家）稀疏架构凭借兼顾模型容量与计算效率的优势，成为 AI 领域核

据来自IT之家2月4日的消息，以及“华为计算”今日发布的信息显示，随着大语言模型的快速发展，模型参数量已攀升至千亿乃至万亿级别。作为一种混合专家架构，MoE凭借其能够兼顾模型容量与计算效率的独特优势，正成为人工智能领域的关键研究方向。

在此背景下，南京大学李猛博士团队依托南京大学鲲鹏昇腾科教创新孵化中心的算力支持，基于华为昇腾平台，开展了以专家等价性为驱动导向的MoE无损显存高效优化研究。团队成功攻克了一系列技术瓶颈，实现了显存消耗降低超过50%、推理延迟显著提升的重要突破。

该项目聚焦于MoE模型部署的核心痛点：大参数量模型部署时，高显存占用导致仅有少量热专家能常驻内存，大量参数需要在内存与显存间频繁切换，引发严重的推理延迟问题。同时，对自主化硬件适配的需求也日益迫切。

团队基于对MoE专家冗余性与等价性的创新性观察，提出了一套软硬件协同优化方案。通过四项核心技术构建了异构推理混合部署框架，实现了全链路效率提升。

首先，团队创新性地设计了三段流水线并行架构，将参数加载、CPU串行计算与GPU并行推理深度重叠，大幅减轻了数据传输压力，使计算与参数传输得以高度并行。其次，突破传统路由机制，根据专家等价性将专家划分为高、中、可替代低分三类，优先缓存核心专家，并利用等价专家灵活替代未加载的低分专家，显著减少了冗余传输与显存占用。第三，首创了共享专家引导的在线预取机制，无需离线训练即可精准预测后续所需专家，提前完成参数加载，有效隐藏预取延迟。最后，设计了双指针动态负载均衡算法，根据任务规模智能分配CPU与GPU算力，充分发挥异构计算的优势，规避了为小批量任务加载额外数据而引起的延迟问题。

依托昇腾平台的硬件特性与CANN软件栈，团队针对性研发了异构推理加速引擎MoE-Ascend。该引擎涵盖动态专家路由管理、专家预测预取、算子适配等核心功能模块，实现了在昇腾平台上的深度适配与性能优化。

该引擎可支持昇腾等多种硬件环境。在保持模型精度无损的前提下，不仅将显存消耗降至原方案的一半，推理速度也较同类方法提升了2倍以上，并将显存缓存命中率提升至70%以上，成功打破了MoE模型对国外高端硬件的依赖。

该项目构建的推理优化工具链，计划开源至昇腾社区、DeepModeling社区及GitHub平台，供科研与工程开发者复用和扩展。

未来，项目成果将应用于AI推理平台、智能客服、语音生成等多个场景。尤其能够适配昇腾等自主NPU部署环境，为边缘侧智能服务提供有力支撑。

来源：https://www.163.com/dy/article/KKUU4LNH0511B8LM.html

预取推理新模型华为昇腾

上一篇vivo Vlog相机立项确认对标大疆Pocket系列 下一篇内存芯片价格普升：厂商评估大幅升配还是温和上涨方案？

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-01

OpenClaw手机App上线，结果翻车了

OpenClaw 官方宣布，已正式推出 iOS 和 Android 原生移动 App，用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接：把 Agent 放进口袋里，让用户可以在移动端处理频道消息、任务和回复。从功能上看，OpenClaw 移动端并

科技数码 · 2026-07-01

优必选CEO周剑：家庭机器人生态核心投入过半精力

先说几个核心判断：优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上，直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进，现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景，另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间，技术路线尚未收敛

6月30日，申银万国在光连接系列研报中重点指出，MPO光连接器领域的投资机会值得高度关注。通俗来说，随着AI算力集群持续扩张，光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件，如今它直接决定着链路插损、可

科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上，区级部门一次性推出了7个AI“龙搭子”。其中，名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解，依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”，已在今年五一假期发布了内测版本。经过一个月市场验证后，该项目正式启动面向全社会的

科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日，南下资金持续大举买入港股，单日净流入金额高达58 95亿港元。接下来，我们直接盘点哪些个股获得资金青睐、哪些遭到减持：净买入方面，中芯国际领跑全场，单日吸金19 33亿港元；建滔积层板紧随其后，净买入10 59亿港元；腾讯控股获得7 65亿港元净流入；智谱（02513 HK）也有6 5