通俗讲解DeepSeek开源:DeepGEMM,究竟是个啥?(第三弹)
deepseek开源周,继deepep之后,第三弹deepgemm震撼来袭。今天我们来探讨一下:
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
吃瓜:DeepGMEE是干什么用的?技术:DeepGMEE是如何实现的?普通人有什么用:对写提示词有什么启示?【1】DeepGMEE是干什么用的?

DeepGMEE,全称General Matrix Multiplication,是一个FP8通用矩阵乘法库(library)。
画外音,FP8:8-bit Floating Point,8位浮点格式。
【2】关于FP8通用矩阵乘法
有人可能会问,矩阵乘法的优化值得这么吹吗?
矩阵乘法是现代AI计算的基石:
矩阵是数据表示的核心工具:神经网络中的权重、特征、参数传递等都使用矩阵表示;矩阵乘法占大模型中90%的计算量:Transformer基操QKV运算、卷积计算、分层全连接计算等;硬件优化的核心目标就是矩阵乘法计算。传统AI的矩阵乘法通常使用NVIDIA开源的CUDA C++模板库CUTLASS,采用FP16/FP32格式,但存在一些不足:
占显存资源:FP32占显存是FP8的4倍;资源利用率低:强制要求矩阵为2次幂尺寸(例如:128*128),容易出现显存碎片;不支持MOE模型的分组矩阵计算;部署复杂度高:需要编译,需要配置。为什么之前不直接采用FP8呢?因为FP8虽然占用资源少,资源利用率高,但会带来精度损失。
高精度乘法:1.2 * 3.4 = 4.08
如果直接降低精度,用整数表示浮点数,变为1 * 3 = 3,精度损失是无法接受的。
我们可以对浮点数进行整数化编码处理:
步骤一:1.2用(12, 1)表示,其中1是小数位数;步骤二:3.4用(34, 1)表示;步骤三:1.2 3.4 = (12, 1) (34, 1) = (12*34, 1+1) = (408, 2)
如此一来,就没有精度损失了。
矩阵乘法的精度补偿比这个复杂,其核心思路是:使用低精度乘法矩阵快速计算,高精度加法补足。
结论就是:DeepSeek使用FP8就能完成FP16/FP32的计算,降低显存占用+提高显存利用率的同时,仍然能够保持高精度。
【3】DeepGMEE的特点
Git介绍中对DeepGMEE有三个关键形容词:
简洁(clean)高效(efficient)高精度(fine-grained scaling)为什么说DeepGMEE简洁?
核心代码300行,而CUTLASS数千行;零依赖(除CUDA),无需预编译,无需复杂环境配置;注释清晰,便于学习与二次开发;画外音:我看了一下,调整数据分块策略,只需要修改10-20行代码。
为什么说DeepGMEE高效?
这是FP8对比FP16/FP32的天然优势,相比CUTLASS:
显存占用下降50%+;MOE推理延时下降60%+;计算密度(TFLOPS)提升了270%+;为什么说DeepGEMM高精度?
采用FP8矩阵乘法加速计算,BF16累加修正精度的办法,平衡了速度与精度。
除此之外,DeepGEMM还有不少特色:
针对MOE优化,支持MOE分组矩阵乘法;针对硬件加速;动态编译JIT:运行时根据矩阵大小与硬件条件优化;矩阵灵活尺寸对齐(例如:可以支持112*128矩阵);上面种种,DeepGMEE本次最大的创新,我认为是:FP8优化,JIT优化,以及MOE优化。
【4】DeepGMEE是怎么做到的?
信息密度太大,头疼,有点学不过来了,感兴趣的同学去官网看吧,我Copy一下git的信息:
1. Persistent warp-specialization
2. Hopper TMA features
3. A unified and optimized block scheduler
4. Fully JIT design
5. Unaligned block sizes
6. FFMA SASS interleaving
7. Common detail optimizations
画外音:其实你也不想知道这些how?
【5】了解GEMM对普通人写提示词有什么启示?
没有启示,这东西和提示词没关系。
【6】结尾
对于DeepGEMM,我的思考是:
之前各大玩家都卷硬件,而忽略了软件的优化;僵化思维真的很要命,一直以来都是FP16/FP32,大家也都用CUTLASS,它就一定是最优吗?写代码,搞架构,少即是多:多写这类300行优美的代码,而不要在垃圾公司堆shi山;先睡了,共勉!
画外音:球球deepseek,明天不要开源新东西了。
补充阅读材料:
《DeepGEMM》
https://www.php.cn/link/e0c082bdcbcf050ff454698580c89289
可参考。
==全文完==
相关攻略
FDUSD脱锚惊魂夜:币安生态稳定币的信任危机与系统性风险 2025年4月2日夜间,加密货币市场经历了一场突如其来的“压力测试”。由香港First Digital Trust Limited发行的美元稳定币FDUSD,在市场上演了惊心动魄的脱锚跳水,其兑USDT价格一度暴跌至0 8726美元。这场震
最近又折腾了下 Obsidian 的 Git 插件,虽然也有点麻烦,但它是适合我的。下面介绍下怎么配置和使用。 第一次使用 Obsidian 是在 2024 年,这是翻阅之前的文章 《Obsidia
这项由华为技术有限公司、南洋理工大学、香港大学和香港中文大学联合完成的突破性研究发表于2026年1月,论文编号为arXiv:2601 01426v1。研究团队通过一种名为SWE-Lego的创新训练方
12 月 27 日消息,科技媒体 NeoWin 今天(12 月 27 日)发布博文,报道称 AI 代码编辑器 Windsurf 本周发布 Wave 13 版,通过大幅升级多智能体工作流、性能可访问
NEO(小蚁区块链)旨在构建智能经济网络。NEO通过资产数字化和智能合约实现自动化管理,用户需在支持NEO交易的平台注册账户并获取数字货币,选择合适的交易对后,即可下单交易并确认。交易完成后,可在账户中查看NEO资产,或转移至个人数字储存中安全保管NEO。
热门专题
热门推荐
加密货币行业翘首以盼的监管里程碑,终于有了实质性进展。美国证券交易委员会(SEC)主席保罗·阿特金斯(Paul Atkins)近日证实,那份允许加密项目在早期获得注册豁免权的“安全港”框架提案,已经正式送抵白宫,进入了最终审查阶段。 在范德堡大学与区块链协会联合举办的数字资产峰会上,阿特金斯透露了这
微策略Strategy报告:第一季录得144 6亿美元浮亏 再斥资约3 3亿美元买进4871枚比特币 市场震荡的威力有多大?看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告,受市场剧烈波动影响,这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿
稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D
基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一
PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票





