首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
DeepSeek悄悄更新:Mega MoE、FP4 Indexer来了

DeepSeek悄悄更新:Mega MoE、FP4 Indexer来了

热心网友
82
转载
2026-04-17

昨天下午,沉寂许久的 DeepSeek 又有新动作了!

不过,正如官方在PR中特意说明的,这次更新和模型本身无关,重点落在了其底层代码库DeepGEMM上。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

然而,正是这次看似常规的代码更新,露出了一个关键的新名词:Mega MoE。

相关链接:https://github.com/deepseek-ai/DeepGEMM/pull/304

这个Mega MoE项目,由DeepSeek基础设施团队的Chenggang Zhao等人贡献。

Mega MoE 是什么?

如何理解这个新概念?不妨先看看X上网友“思维怪怪的”一个生动比喻:

来源:https://x.com/0xLogicrw/status/2044720884066451645

简单来说,Mega MoE干了一件“化零为整”的事。它把原本分散、割裂的一整套MoE计算流程,彻底揉合成一个整体,力求在GPU上一次性跑完。

传统的MoE实现,好比一条被拆分成多个独立工位的流水线。Token需要先被分发(dispatch)到不同的专家网络,然后进行一层线性变换,接着通过激活函数(比如SwiGLU),再来一层线性变换,最后才能把结果收集(combine)回来。流程听起来清晰,但实际运行时,每一步都得启动一个独立的内核(kernel),中间还穿插着大量的GPU间数据通信。

于是,一种典型的低效场景就出现了:计算一会儿,等待一会儿;传输一会儿,再计算一会儿。GPU的算力就在这种频繁的启停和等待中被白白浪费。

而Mega MoE的目标,就是把这整条流水线“焊死”。它将分发、两层线性层、SwiGLU激活、结果合并这些步骤,全部融合(fuse)进一个单一的“超级内核”(mega-kernel)里。更关键的是,它不止步于步骤合并,还做了一件更彻底的事:实现计算与通信的重叠。

换句话说,让Tensor Core执行计算的同时,NVLink同步进行数据传输,双方不再互相等待。

这么做的影响非常直接:GPU的停顿大幅减少,利用率显著提升。尤其是在多卡、大规模MoE模型的应用场景下,这种优化带来的速度提升是可以被直接感知的。这就好比把原来一组人接力搬砖,换成了一条永不停歇的自动化传送带。

当然,DeepSeek这次的野心显然不止于做出一个“更快的kernel”。你能清晰地感觉到,他们正在朝一个方向持续攻坚:将MoE的潜力压榨到极限。

例如,他们开始尝试FP8与FP4混合精度这样的组合,甚至还为MQA logits设计了一个FP4的索引器(indexer)。这类操作,基本是在试探“计算还能不能再省一点”的终极边界。再加上对GEMM算子的重构、利用JIT(即时编译)进行加速,种种迹象表明,DeepSeek正致力于将其AI基础设施打磨得更为强劲和高效。

有个细节值得玩味:团队明确表示,Mega MoE仍在积极开发中,具体的性能数据“容后再禀”。这其实很符合这类深度优化的特点——它往往不是一版代码就能定型,而是需要在不同模型规模、不同硬件拓扑、不同工作负载下反复调试和打磨。此时选择开源,更像是在向社区释放一个明确的信号:技术路线已经锚定,我们正沿着这条道路全力冲刺。

基于Mega MoE等更新,DeepSeek也对DeepGEMM库的描述进行了调整:

DeepGEMM是一个统一的高性能Tensor Core内核库,它将现代大语言模型的关键计算原语整合在一起,包括支持FP8、FP4、BF16精度的GEMM、具备通信重叠能力的融合MoE(Mega MoE)、用于lightning indexer的MQA打分、HyperConnection(HC)等,全部汇聚到一个统一且一致的CUDA代码库中。所有内核都通过一个轻量级的即时编译(JIT)模块在运行时编译,因此在安装过程中无需进行复杂的CUDA编译。

所以,如果非要给这次更新一个定位,或许可以这么说:这是一次发生在基础设施层的深度重构尝试。DeepSeek正在努力将MoE从一种“理论上很美好,但工程上很折腾”的架构,推向“能够被大规模、高效率部署和应用”的实用阶段。

而Mega MoE,很可能只是这宏大蓝图中的第一块关键拼图。剩下的悬念是,这块拼图是否会成为未来DeepSeek-V4模型的一部分?

另外,根据X网友St4r的解读,此次更新中透露的某些技术细节,也可能暗示了DeepSeek训练所使用的硬件,仍然包含了英伟达最新的顶级B系列AI加速卡(而非过去几个月传闻中提到的国产训练卡)。

来源:https://36kr.com/p/3770337582858759
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

DeepSeek研究员入职字节,李亮:没招聘近亿元年薪技术员工,但不排除四年后收益数亿元
科技数码
DeepSeek研究员入职字节,李亮:没招聘近亿元年薪技术员工,但不排除四年后收益数亿元

有传言称,前DeepSeek研究员郭达雅已被字节跳动以亿元年薪“挖角” 最近,一则关于AI人才流动的消息在圈内传得沸沸扬扬:前DeepSeek研究员郭达雅,据传被字节跳动以接近亿元的年薪“挖”走了。 这事儿有谱吗?4月16日,澎湃新闻的记者通过多方信源进行了核实。结论是,郭达雅确实已经加盟了字节跳动

热心网友
04.17
DeepSeek悄悄更新:Mega MoE、FP4 Indexer来了
业界动态
DeepSeek悄悄更新:Mega MoE、FP4 Indexer来了

昨天下午,沉寂许久的 DeepSeek 又有新动作了! 不过,正如官方在PR中特意说明的,这次更新和模型本身无关,重点落在了其底层代码库DeepGEMM上。 然而,正是这次看似常规的代码更新,露出了一个关键的新名词:Mega MoE。 相关链接:https: github com deepseek

热心网友
04.17
DeepSeek专家模式上线!深度思考+极速Token 复杂难题一键搞定
业界动态
DeepSeek专家模式上线!深度思考+极速Token 复杂难题一键搞定

DeepSeek专家模式上线!深度思考+极速Token 复杂难题一键搞定 就在4月8号,DeepSeek放了个大招,正式上线了专家模式。这个新功能瞄准的,就是帮大家更顺畅地处理那些烧脑的复杂问题。 更新后的版本里,输入框上方多了两个选项:“快速模式”和“专家模式”。这可是DeepSeek爆火之后,第

热心网友
04.15
DeepSeek-探索先进的国产大模型
AI
DeepSeek-探索先进的国产大模型

揭秘「DeepSeek」:国产顶尖大语言模型指南 想要了解当前最能打的国产AI大模型吗?DeepSeek绝对值得关注。这款由深度求索公司自主研发的大语言模型,不仅是各类技术榜单的常客,更凭借出色的用户体验,赢得了开发者和普通用户的广泛好评。它正在重新定义中文AI助手的能力边界,为用户带来真正高效的智

热心网友
04.14
DeepSeek回应“崩了”:部分功能已恢复正常
AI
DeepSeek回应“崩了”:部分功能已恢复正常

DeepSeek突发服务波动,用户历史记录问题引关注 今天,AI圈子里的一则消息迅速传开了:不少用户发现,DeepSeek似乎“闹起了脾气”。从社交媒体到技术论坛,相关讨论热度直线上升,很快成了网络上的热门话题。 具体怎么回事呢?大量用户陆续反馈,在使用DeepSeek时遇到了明显的障碍。点开应用或

热心网友
04.14

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

网易爆米花如何添加夸克网盘
手机教程
网易爆米花如何添加夸克网盘

网易爆米花与夸克网盘关联指南:功能解析与未来展望 首先需要明确的是,目前网易爆米花这款应用,尚不支持直接添加或关联夸克网盘。这一现状主要源于两者在产品定位与核心功能上的显著区别。 具体而言,网易爆米花致力于打造一个以视频为核心的分享与互动社区,其重点在于“内容”的创作、传播与交流。而夸克网盘则是一款

热心网友
04.17
HermesAgent文件管理技巧:如何安全地让AI读写本地文件
AI
HermesAgent文件管理技巧:如何安全地让AI读写本地文件

Hermes Agent 安全文件管理需五步:一、设 filesystem_mode 为 sandbox 启用沙箱隔离;二、在 mount_points 配置白名单路径映射;三、开启 audit_enabled 并检查 log_level 启用审计日志;四、扩展 is_blocked_path()

热心网友
04.17
格力海信激战空调真铜实料为什么?
业界动态
格力海信激战空调真铜实料为什么?

空调“真铜实料”之争:一场没有输家的行业进化 这两天,空调行业围绕“真铜实料”的话语权争夺战,正式打响。对于格力和海信而言,这场交锋有助于扭转一线市场上可能存在的“劣币驱逐良币”现象;与此同时,对于海尔、美的、奥克斯、TCL、长虹等其他空调企业来说,也是一个亮出承诺、坚守“真材实料”品质立场的契机。

热心网友
04.17
期权交易怎么玩?币安期权入门到精通详细解析
web3.0
期权交易怎么玩?币安期权入门到精通详细解析

币安期权交易:从合约理解到风险管控的全流程精讲 想在币安玩转期权?这事儿说复杂也复杂,说简单也简单。核心就一条:你得把从理解合约、识别参数、下单管理,再到行权平仓和风险监控这一整套流程,给捋顺了、吃透了。下面,咱们就抛开那些晦涩的术语,用最接地气的方式,把这五个环节掰开揉碎了讲清楚。 一、理解期权合

热心网友
04.17
高阶编程能力大幅提升,Anthropic发布Claude Opus 4.7
科技数码
高阶编程能力大幅提升,Anthropic发布Claude Opus 4.7

IT之家 4 月 16 日消息,Anthropic 今日发布了其最新人工智能模型 Claude Opus 4 7 距离上一次模型升级仅仅过去了两个月,Anthropic 再次如约而至,发布了 Claude Opus 4 7。这与其一贯的更新节奏完全吻合,显示出这家公司在模型迭代上的稳定步伐。 Opu

热心网友
04.17