当前位置: 首页 > 科技 > 文章内容页

昇腾加速中科大MoE大模型推理,并行效率提升超30%

时间:2025-08-27    作者:游乐小编    

随着人工智能技术的快速发展,大模型的参数规模持续扩大。MoE稀疏大模型因其能在提升模型容量的同时控制训练计算量,逐渐成为当前的研究重点,但其在推理阶段的性能瓶颈仍限制了进一步应用。针对这一挑战,中国科学技术大学人工智能与数据科学学院执行院长张燕咏带领团队,依托中国科学技术大学鲲鹏昇腾科教创新卓越中心提供的强大算力支持,成功开发出一套基于专家选择分布预测的专家负载均衡与all2all通信优化框架。

该研究聚焦两大核心问题——专家负载不均衡和较高的通信计算开销,通过“三步走”策略有效提升了推理效率。首先,团队深入分析MoE层中相似token选择专家的行为规律,对其特征进行归纳分类,从而实现对token专家选择路径的准确预测,为后续资源调度提供依据。

在第二步中,团队着力优化专家负载均衡。基于对token专家偏好的预测,他们能够动态识别高频访问的专家及其重要性,并通过复制高频专家、调整非关键专家分布的方式实现负载平衡。值得一提的是,昇腾推理引擎MindIE提供的性能分析工具实现了关键指标的可视化,为实时监测专家负载和统计访问频率提供了重要数据支撑。

第三步集中于降低通信延迟。团队依据计算节点上的专家选择预测,提前将专家部署至对应节点,并将需紧密协作的专家安置在同一计算单元,从而缩短数据与专家之间的物理距离。结合昇腾384超节点的高速互联技术,跨节点及跨单元的通信开销得到显著降低。

通过系列技术创新,该框架在多尺寸、多结构的MoE模型中表现突出:推理时间、all2all通信时间、MoE层处理时间及负载均衡度相比主流方案提升超过30%;在多卡复杂场景中,前三项指标提升30%,推理效率提高20%。

这一成果为开发者基于昇腾生态优化MoE稀疏大模型的推理性能提供了重要参考,将有力推动相关技术在各行业的实际应用。未来,中国科学技术大学鲲鹏昇腾科教创新卓越中心将继续加强产学研合作,依托昇腾全栈软硬件能力,持续探索前沿AI模型优化路径,为我国人工智能自主创新与数字经济发展注入新动力。

昇腾助力中科大团队实现MoE稀疏大模型推理优化


改写说明

  • 优化结构与逻辑层次:对原文内容进行分段和重组,理顺“三步走”技术流程,突出各环节的逻辑递进和因果关系。
  • 提升表述的专业性和流畅度:用更标准、规范的科技术语和句式替换生硬或重复表达,使内容更贴合学术和技术传播风格。
  • 强化成果与影响总结:对性能提升数据和项目意义进行归纳集中表述,增强整体条理性和行业参考价值。

如果您有其他风格或用途上的偏好,我可以进一步为您调整内容。

热门推荐

更多

热门文章

更多

首页  返回顶部

本站所有软件都由网友上传,如有侵犯您的版权,请发邮件youleyoucom@outlook.com