昆仑万维开源2000亿稀疏大模型天工MoE 支持4090推理_AI热点日报

昆仑万维开源2000亿稀疏大模型天工MoE 支持4090推理

类型：热点整理2026-05-31

昆仑万维开源2千亿参数稀疏大模型Skywork-MoE，总参146B、激活22B，基于MoEUpcycling技术，单台8卡4090可推理，性能接近70B稠密模型，推理成本下降约3倍。

```html

2024年6月3日，昆仑万维正式开源了一款名为 Skywork-MoE 的稀疏大模型，参数规模达到2千亿。这不仅是模型体量上的又一次重大突破，更关键的是，它在保持出色性能的同时，大幅降低了推理成本。从技术层面来看，Skywork-MoE 基于昆仑万维此前开源的 Skywork-13B 中间检查点扩展而来，其独特之处在于——这是业界首个完整应用并落地 MoE Upcycling 技术的千亿级开源模型，也是截至目前唯一一个支持在单台 4090 服务器上推理的千亿级开源 MoE 模型。

模型权重与技术报告已全面开放，可免费用于商业用途，无需另行申请。相关资源如下：

模型权重下载地址已提供（Hugging Face），同时包含 FP8 量化版本。

开源仓库与技术报告已在 GitHub 上同步发布，推理代码也已公开，支持在8卡4090服务器上采用8比特量化进行加载推理。

模型架构

本次开源的 Skywork-MoE 模型，属于天工 3.0 研发系列中的中档规格（Skywork-MoE-Medium）。模型总参数量为 146B，其中激活参数为 22B。整个模型部署了16个专家（Expert），每个专家的大小为 13B，每次推理时仅激活其中 2 个专家。

值得一提的是，天工 3.0 还训练了 75B（Skywork-MoE-Small）和 400B（Skywork-MoE-Large）两个档位的 MoE 模型，但这两个版本并未包含在此次开源范围内。

模型能力

在相同的激活参数 20B（即推理计算量相当）基准下，Skywork-MoE 的表现已处于行业前列，能力接近 70B 的稠密（Dense）模型。这意味着推理成本可降低约3倍。同时，Skywork-MoE 的总参数量比 DeepSeekV2 整整小了三分之一，却以更小的规模实现了接近的性能水平。

技术创新

MoE 模型训练难度大、泛化性能差是业界公认的难题。相较于 Mixtral-MoE，Skywork-MoE 专门设计了两项训练优化算法：

Gating Logits 归一化操作

具体而言，在门控（Gating）层的 token 分发逻辑中，新增了一个归一化（normalization）操作。这一改进的目的是让门控层的参数学习更倾向于被选中的 Top-2 专家，从而提升 MoE 模型对这两个专家的置信度。

自适应的 Aux Loss

传统辅助损失（aux loss）通常采用固定系数。Skywork-MoE 打破了这一惯例，让模型在训练的不同阶段自适应地选择合适的 aux loss 超参系数——核心目标是将“丢失 token 率”（Drop Token Rate）控制在一个合理的区间。这既能保证专家之间的负载相对均衡，又能让不同专家学习到具备差异化的能力，从而全面提升模型的性能和泛化能力。

具体来说，训练前期参数学习不到位，token 分布差异较大，导致 Drop Token Rate 偏高，此时需要较大的 aux loss 来辅助 token 均衡；而到了训练后期，希望专家之间仍保持一定的区分度，避免门控层随机分发 token，因此需要更低的 aux loss 来减少纠偏。

训练 Infra

MoE 模型的高效大规模分布式训练，向来是公认的挑战，社区目前尚无最佳实践。Skywork-MoE 提出了两个关键的并行优化设计，最终在千卡集群上实现了 MFU 38% 的训练吞吐（MFU 按 22B 的激活参数计算理论计算量）。

Expert Data Parallel

与社区常见的 EP（Expert Parallel）和 ETP（Expert Tensor Parallel）设计不同，Skywork-MoE 提出了一种名为 Expert Data Parallel 的并行方案。其最大优势在于：当专家数量较少时，仍能高效地切分模型，并能最大程度优化和掩盖引入的 all2all 通信开销。相比之下，EP 受限于 GPU 数量，ETP 在千卡集群上效率不足，而 EDP 较好地解决了这些痛点，设计简洁、鲁棒且易于扩展，部署和验证都十分迅速。

一个最简单的实例：在两卡情况下，设置 TP=2，EP=2 即可运行，其中 Attention 部分采用 Tensor Parallel，Expert 部分采用 Expert Parallel。

非均匀切分流水并行

传统流水并行若均匀切分各层，由于首阶段（Embedding 计算）和末阶段（Loss 计算）的存在，加上 Pipeline Buffer 的占用，各阶段的计算负载和显存负载会出现明显不均衡。Skywork-MoE 引入了非均匀的流水并行切分，并结合重计算层的分配优化，使得总体计算/显存负载更均衡，端到端训练吞吐提升了约10%。

对比之下，均匀切分与非均匀切分的差异一目了然：对于一个24层的LLM，均匀切分为4个 stage，每阶段层数为 [6,6,6,6]；而非均匀优化后切分成5个 stage，层数分配为 [5,5,5,5,4]。在流水线打满的阶段，后者的气泡明显更低。

MoE Know-how

此外，Skywork-MoE 还进行了一系列基于 Scaling Laws 的实验，旨在探究哪些约束会影响 Upcycling 和 From Scratch 训练 MoE 模型的效果。

一个可供参考的经验法则是：如果训练 MoE 模型的总计算量（FLOPs）是训练稠密模型的2倍以上，那么选择 From Scratch 效果更优；反之，选择 Upcycling 可显著降低训练成本。

4090 推理

Skywork-MoE 目前是能在 8×4090 服务器上推理的最大开源 MoE 模型。单台8卡4090服务器总共有 192GB 的 GPU 显存。在 FP8 量化条件下，权重占用约 146GB。配合首创的非均匀 Tensor Parallel 并行推理方式，Skywork-MoE 可在合适的 batch size 内达到约 2200 tokens/s 的吞吐量。

结语

这次开源，不仅仅是把模型发布出来。我们希望 Skywork-MoE 的模型权重、技术报告，以及附带的一系列实验成果，能为社区贡献更多关于 MoE 模型训练的经验与 Know-how——从结构设计、超参选择、训练技巧，到推理加速等方方面面。归根结底，目标始终如一：用更低的训练和推理成本，去训练更大更强的模型，在通往 AGI 的道路上，贡献一份力量。

```

来源：https://www.53ai.com/news/OpenSourceLLM/2024060332794.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。