游乐游手机版
首页/AI教程/文章详情

DeepSeek迭代MoE内存减42%免费午餐优化

时间:2026-06-26 16:46
CoE迭代机制为稀疏MoE添加专家间直接通信,500M参数模型训练1000步后loss从1 20降至1 12。相比效果相当的MoE,内存需求降低42%,核心创新为独立门控机制与内部残差连接。

该消息发布后,迅速引发网友热议,大家纷纷开始畅想下一代AI架构的形态。

那么,这个被称为CoE的创新架构究竟有何来历?研究团队在其Notion博客中做了详尽阐述。

CoE:专为稀疏MoE架构量身设计

简而言之,CoE的核心突破在于为稀疏MoE引入了一套高效的“通信机制”,彻底改变了信息在稀疏神经网络中的传递与流转方式。

其实现思路非常直接:在单个层内,将MoE的输出反复作为下一次迭代的输入,使信息在连续迭代中不断传递、累积并优化。

用公式表示CoE的迭代处理机制,大致如下所示:

他们借鉴了DeepSeek-V2的实现方式,门控机制的定义如下:

这种设计带来的优势十分明显:每次迭代需要选择哪些专家,完全由上一轮输出的结果动态决定。如此一来,专家之间不再是“各自为政”,而是形成了紧密的依赖关系与灵活的动态路由。串行处理的信息在迭代过程中不断累积,最终实现了专家之间的直接通信——这正是整个架构的关键所在。

团队以DeepSeek V2架构为实验基础,在500M参数的MoE模型上,使用32K Tok的batch size训练了1000步,以验证CoE的实际效果。结果相当亮眼:CoE在性能表现、扩展策略、资源效率优化、专家组合自由度以及整体使用效率上,均展现出显著优势。

除了开头那张图显示的,在算力和内存要求相近的前提下,CoE将loss从1.20显著拉低至1.12,且下降趋势更为迅猛。

更有意思的是,他们还在“密集”模型(即专家8选8)上进行了相同实验,结果证实串行处理在稀疏MoE上远比在密集模型中更有效。CoE确实是专门为稀疏混合专家模型量身定制的一套方法。对于密集模型而言,执行两次序列化处理带来的性能提升几乎可以忽略不计。

此外,在计算量和最终性能相近的情况下,CoE还能有效“节省内存”。例如,CoE-2(4/48)的效果能够与MoE(8/64)持平,但所需的专家总数大幅减少。在loss相当的前提下,内存需求直接降低了17.6%。

团队还做了一个极具价值的对比:在预算相似的情况下,究竟是扩展CoE的迭代次数更划算,还是扩展模型的层数或专家选择个数更优?结果非常清晰:扩展CoE迭代次数是更具优势的选择。

再举一个例子:CoE-2(8/64),4层模型对比MoE(8/64),8层或12层模型。8层的MoE与CoE效果几乎一致,但MoE对内存的要求却高出72%。换算下来,CoE相当于节省了42%的内存。

团队特别强调,独立的门控机制以及内部的残差连接,是CoE最核心的架构创新。消融实验的结果也充分佐证了这一点:移除任何一个关键组件,都会导致性能出现断崖式下跌。

如果想了解更详尽的技术细节,建议直接查阅他们的技术报告原文。

研发团队是谁?

CoE项目由一支5人小团队共同打造。

核心成员Zihan Wang是美国西北大学计算机科学专业的博士生,本科毕业于中国人民大学高瓴人工智能学院。他的研究方向主要集中在大模型自主性、效率以及长上下文理解等领域。

这位Zihan Wang曾任职于DeepSeek,是ESFT(Expert-Specialized Fine-Tuning)论文的第一作者。ESFT的思路是只调整MoE中与特定任务相关的部分,从而在降低资源和存储消耗的同时,高效实现模型定制化调整,提升整体效率与性能。

值得一提的是,CoE并非Zihan Wang首次围绕DeepSeek开发“衍生架构”。此前,他还基于verl复现了DeepSeek-R1(-Zero)框架,命名为RAGEN(Reinforcement learning AGENt),该项目在GitHub上已获得近1k星标。

Zihan Wang的导师是Manling Li,她是西北大学计算机科学系的助理教授,此前曾在吴佳俊教授的指导下工作,并获得过李飞飞教授的指导。

另外,在RAGEN的贡献者名单中,也能看到Manling Li、吴佳俊以及李飞飞的名字。

来源:https://www.aiagiai.com/9109.html
上一篇大模型的三重门与AI发展的终极方向 下一篇DeepSeek给中国To B服务带来了哪些变化
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年最新JetBrains AI助手Windows本地详细安装配置教程(含下载与环境要求)
AI教程 · 2026-07-03

年最新JetBrains AI助手Windows本地详细安装配置教程(含下载与环境要求)

JetBrainsAIAssistant可在Windows上通过IDE内置市场或离线包安装,需匹配新版JetBrainsIDE、账号登录与稳定网络。配置时应关注版本兼容、隐私设置、项目索引、快捷键和代码提交前复核,避免上传密钥与敏感业务资料。

Amazon Q Developer新手安装指南:从下载到首次运行的保姆级教程
AI教程 · 2026-07-03

Amazon Q Developer新手安装指南:从下载到首次运行的保姆级教程

AmazonQDeveloper可为编码、调试、解释项目和生成测试提供辅助。安装前需确认账号、开发环境和插件来源,按IDE或命令行路径完成配置,并在首次运行时注意权限、数据与项目安全。

Amazon Q Developer安装失败怎么办?报错日志排查与升级回滚方案
AI教程 · 2026-07-03

Amazon Q Developer安装失败怎么办?报错日志排查与升级回滚方案

AmazonQDeveloper安装失败通常与版本兼容、网络连接、身份登录、插件残留或权限配置有关。排查时应先确认环境,再查看IDE与终端日志,必要时采用清理重装、固定版本升级或回滚方案。

Amazon Q Developer本地模型运行:下载、路径与性能优化
AI教程 · 2026-07-03

Amazon Q Developer本地模型运行:下载、路径与性能优化

AmazonQDeveloper以云端能力为主,本地模型方案更适合离线补充、代码检索和私有环境辅助。配置时需确认版本、模型来源、路径权限、硬件资源与IDE集成方式,并通过量化、上下文控制和缓存策略优化性能。

Amazon Q Developer插件安装全流程:浏览器编辑器扩展市场配置
AI教程 · 2026-07-03

Amazon Q Developer插件安装全流程:浏览器编辑器扩展市场配置

AmazonQDeveloper可在浏览器控制台、VSCode、JetBrains等环境中辅助写代码、解释项目和生成测试。安装前需确认账号权限、编辑器版本与网络环境,配置时重点关注登录授权、工作区信任、数据权限和团队使用规范。