DeepSeek迭代MoE内存减42%免费午餐优化

首页/AI教程/文章详情

DeepSeek迭代MoE内存减42%免费午餐优化

时间：2026-06-26 16:46

CoE迭代机制为稀疏MoE添加专家间直接通信，500M参数模型训练1000步后loss从1 20降至1 12。相比效果相当的MoE，内存需求降低42%，核心创新为独立门控机制与内部残差连接。

该消息发布后，迅速引发网友热议，大家纷纷开始畅想下一代AI架构的形态。

那么，这个被称为CoE的创新架构究竟有何来历？研究团队在其Notion博客中做了详尽阐述。

CoE：专为稀疏MoE架构量身设计

简而言之，CoE的核心突破在于为稀疏MoE引入了一套高效的“通信机制”，彻底改变了信息在稀疏神经网络中的传递与流转方式。

其实现思路非常直接：在单个层内，将MoE的输出反复作为下一次迭代的输入，使信息在连续迭代中不断传递、累积并优化。

用公式表示CoE的迭代处理机制，大致如下所示：

他们借鉴了DeepSeek-V2的实现方式，门控机制的定义如下：

这种设计带来的优势十分明显：每次迭代需要选择哪些专家，完全由上一轮输出的结果动态决定。如此一来，专家之间不再是“各自为政”，而是形成了紧密的依赖关系与灵活的动态路由。串行处理的信息在迭代过程中不断累积，最终实现了专家之间的直接通信——这正是整个架构的关键所在。

团队以DeepSeek V2架构为实验基础，在500M参数的MoE模型上，使用32K Tok的batch size训练了1000步，以验证CoE的实际效果。结果相当亮眼：CoE在性能表现、扩展策略、资源效率优化、专家组合自由度以及整体使用效率上，均展现出显著优势。

除了开头那张图显示的，在算力和内存要求相近的前提下，CoE将loss从1.20显著拉低至1.12，且下降趋势更为迅猛。

更有意思的是，他们还在“密集”模型（即专家8选8）上进行了相同实验，结果证实串行处理在稀疏MoE上远比在密集模型中更有效。CoE确实是专门为稀疏混合专家模型量身定制的一套方法。对于密集模型而言，执行两次序列化处理带来的性能提升几乎可以忽略不计。

此外，在计算量和最终性能相近的情况下，CoE还能有效“节省内存”。例如，CoE-2（4/48）的效果能够与MoE（8/64）持平，但所需的专家总数大幅减少。在loss相当的前提下，内存需求直接降低了17.6%。

团队还做了一个极具价值的对比：在预算相似的情况下，究竟是扩展CoE的迭代次数更划算，还是扩展模型的层数或专家选择个数更优？结果非常清晰：扩展CoE迭代次数是更具优势的选择。

再举一个例子：CoE-2（8/64），4层模型对比MoE（8/64），8层或12层模型。8层的MoE与CoE效果几乎一致，但MoE对内存的要求却高出72%。换算下来，CoE相当于节省了42%的内存。

团队特别强调，独立的门控机制以及内部的残差连接，是CoE最核心的架构创新。消融实验的结果也充分佐证了这一点：移除任何一个关键组件，都会导致性能出现断崖式下跌。

如果想了解更详尽的技术细节，建议直接查阅他们的技术报告原文。

研发团队是谁？

CoE项目由一支5人小团队共同打造。

核心成员Zihan Wang是美国西北大学计算机科学专业的博士生，本科毕业于中国人民大学高瓴人工智能学院。他的研究方向主要集中在大模型自主性、效率以及长上下文理解等领域。

这位Zihan Wang曾任职于DeepSeek，是ESFT（Expert-Specialized Fine-Tuning）论文的第一作者。ESFT的思路是只调整MoE中与特定任务相关的部分，从而在降低资源和存储消耗的同时，高效实现模型定制化调整，提升整体效率与性能。

值得一提的是，CoE并非Zihan Wang首次围绕DeepSeek开发“衍生架构”。此前，他还基于verl复现了DeepSeek-R1（-Zero）框架，命名为RAGEN（Reinforcement learning AGENt），该项目在GitHub上已获得近1k星标。

Zihan Wang的导师是Manling Li，她是西北大学计算机科学系的助理教授，此前曾在吴佳俊教授的指导下工作，并获得过李飞飞教授的指导。

另外，在RAGEN的贡献者名单中，也能看到Manling Li、吴佳俊以及李飞飞的名字。

来源：https://www.aiagiai.com/9109.html

上一篇大模型的三重门与AI发展的终极方向 下一篇DeepSeek给中国To B服务带来了哪些变化

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-07-03

年最新JetBrains AI助手Windows本地详细安装配置教程（含下载与环境要求）

JetBrainsAIAssistant可在Windows上通过IDE内置市场或离线包安装，需匹配新版JetBrainsIDE、账号登录与稳定网络。配置时应关注版本兼容、隐私设置、项目索引、快捷键和代码提交前复核，避免上传密钥与敏感业务资料。

AI教程 · 2026-07-03

Amazon Q Developer新手安装指南：从下载到首次运行的保姆级教程

AmazonQDeveloper可为编码、调试、解释项目和生成测试提供辅助。安装前需确认账号、开发环境和插件来源，按IDE或命令行路径完成配置，并在首次运行时注意权限、数据与项目安全。

AI教程 · 2026-07-03

Amazon Q Developer安装失败怎么办？报错日志排查与升级回滚方案

AmazonQDeveloper安装失败通常与版本兼容、网络连接、身份登录、插件残留或权限配置有关。排查时应先确认环境，再查看IDE与终端日志，必要时采用清理重装、固定版本升级或回滚方案。

AI教程 · 2026-07-03

Amazon Q Developer本地模型运行：下载、路径与性能优化

AmazonQDeveloper以云端能力为主，本地模型方案更适合离线补充、代码检索和私有环境辅助。配置时需确认版本、模型来源、路径权限、硬件资源与IDE集成方式，并通过量化、上下文控制和缓存策略优化性能。

AI教程 · 2026-07-03

Amazon Q Developer插件安装全流程：浏览器编辑器扩展市场配置

AmazonQDeveloper可在浏览器控制台、VSCode、JetBrains等环境中辅助写代码、解释项目和生成测试。安装前需确认账号权限、编辑器版本与网络环境，配置时重点关注登录授权、工作区信任、数据权限和团队使用规范。