游乐游手机版
首页/AI热点日报/热点详情

昆仑万维开源2000亿稀疏大模型天工MoE 支持4090推理

类型:热点整理2026-05-31
昆仑万维开源2千亿参数稀疏大模型Skywork-MoE,总参146B、激活22B,基于MoEUpcycling技术,单台8卡4090可推理,性能接近70B稠密模型,推理成本下降约3倍。
```html

2024年6月3日,昆仑万维正式开源了一款名为 Skywork-MoE 的稀疏大模型,参数规模达到2千亿。这不仅是模型体量上的又一次重大突破,更关键的是,它在保持出色性能的同时,大幅降低了推理成本。从技术层面来看,Skywork-MoE 基于昆仑万维此前开源的 Skywork-13B 中间检查点扩展而来,其独特之处在于——这是业界首个完整应用并落地 MoE Upcycling 技术的千亿级开源模型,也是截至目前唯一一个支持在单台 4090 服务器上推理的千亿级开源 MoE 模型。

模型权重与技术报告已全面开放,可免费用于商业用途,无需另行申请。相关资源如下:

模型权重下载地址已提供(Hugging Face),同时包含 FP8 量化版本。

开源仓库与技术报告已在 GitHub 上同步发布,推理代码也已公开,支持在8卡4090服务器上采用8比特量化进行加载推理。

模型架构

本次开源的 Skywork-MoE 模型,属于天工 3.0 研发系列中的中档规格(Skywork-MoE-Medium)。模型总参数量为 146B,其中激活参数为 22B。整个模型部署了16个专家(Expert),每个专家的大小为 13B,每次推理时仅激活其中 2 个专家。

值得一提的是,天工 3.0 还训练了 75B(Skywork-MoE-Small)和 400B(Skywork-MoE-Large)两个档位的 MoE 模型,但这两个版本并未包含在此次开源范围内。

模型能力

在相同的激活参数 20B(即推理计算量相当)基准下,Skywork-MoE 的表现已处于行业前列,能力接近 70B 的稠密(Dense)模型。这意味着推理成本可降低约3倍。同时,Skywork-MoE 的总参数量比 DeepSeekV2 整整小了三分之一,却以更小的规模实现了接近的性能水平。

技术创新

MoE 模型训练难度大、泛化性能差是业界公认的难题。相较于 Mixtral-MoE,Skywork-MoE 专门设计了两项训练优化算法:

Gating Logits 归一化操作

具体而言,在门控(Gating)层的 token 分发逻辑中,新增了一个归一化(normalization)操作。这一改进的目的是让门控层的参数学习更倾向于被选中的 Top-2 专家,从而提升 MoE 模型对这两个专家的置信度。

自适应的 Aux Loss

传统辅助损失(aux loss)通常采用固定系数。Skywork-MoE 打破了这一惯例,让模型在训练的不同阶段自适应地选择合适的 aux loss 超参系数——核心目标是将“丢失 token 率”(Drop Token Rate)控制在一个合理的区间。这既能保证专家之间的负载相对均衡,又能让不同专家学习到具备差异化的能力,从而全面提升模型的性能和泛化能力。

具体来说,训练前期参数学习不到位,token 分布差异较大,导致 Drop Token Rate 偏高,此时需要较大的 aux loss 来辅助 token 均衡;而到了训练后期,希望专家之间仍保持一定的区分度,避免门控层随机分发 token,因此需要更低的 aux loss 来减少纠偏。

训练 Infra

MoE 模型的高效大规模分布式训练,向来是公认的挑战,社区目前尚无最佳实践。Skywork-MoE 提出了两个关键的并行优化设计,最终在千卡集群上实现了 MFU 38% 的训练吞吐(MFU 按 22B 的激活参数计算理论计算量)。

Expert Data Parallel

与社区常见的 EP(Expert Parallel)和 ETP(Expert Tensor Parallel)设计不同,Skywork-MoE 提出了一种名为 Expert Data Parallel 的并行方案。其最大优势在于:当专家数量较少时,仍能高效地切分模型,并能最大程度优化和掩盖引入的 all2all 通信开销。相比之下,EP 受限于 GPU 数量,ETP 在千卡集群上效率不足,而 EDP 较好地解决了这些痛点,设计简洁、鲁棒且易于扩展,部署和验证都十分迅速。

一个最简单的实例:在两卡情况下,设置 TP=2,EP=2 即可运行,其中 Attention 部分采用 Tensor Parallel,Expert 部分采用 Expert Parallel。

非均匀切分流水并行

传统流水并行若均匀切分各层,由于首阶段(Embedding 计算)和末阶段(Loss 计算)的存在,加上 Pipeline Buffer 的占用,各阶段的计算负载和显存负载会出现明显不均衡。Skywork-MoE 引入了非均匀的流水并行切分,并结合重计算层的分配优化,使得总体计算/显存负载更均衡,端到端训练吞吐提升了约10%。

对比之下,均匀切分与非均匀切分的差异一目了然:对于一个24层的LLM,均匀切分为4个 stage,每阶段层数为 [6,6,6,6];而非均匀优化后切分成5个 stage,层数分配为 [5,5,5,5,4]。在流水线打满的阶段,后者的气泡明显更低。

MoE Know-how

此外,Skywork-MoE 还进行了一系列基于 Scaling Laws 的实验,旨在探究哪些约束会影响 Upcycling 和 From Scratch 训练 MoE 模型的效果。

一个可供参考的经验法则是:如果训练 MoE 模型的总计算量(FLOPs)是训练稠密模型的2倍以上,那么选择 From Scratch 效果更优;反之,选择 Upcycling 可显著降低训练成本。

4090 推理

Skywork-MoE 目前是能在 8×4090 服务器上推理的最大开源 MoE 模型。单台8卡4090服务器总共有 192GB 的 GPU 显存。在 FP8 量化条件下,权重占用约 146GB。配合首创的非均匀 Tensor Parallel 并行推理方式,Skywork-MoE 可在合适的 batch size 内达到约 2200 tokens/s 的吞吐量。

结语

这次开源,不仅仅是把模型发布出来。我们希望 Skywork-MoE 的模型权重、技术报告,以及附带的一系列实验成果,能为社区贡献更多关于 MoE 模型训练的经验与 Know-how——从结构设计、超参选择、训练技巧,到推理加速等方方面面。归根结底,目标始终如一:用更低的训练和推理成本,去训练更大更强的模型,在通往 AGI 的道路上,贡献一份力量。

```
来源:https://www.53ai.com/news/OpenSourceLLM/2024060332794.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。