首页 游戏 软件 资讯 排行榜 专题
首页
手机教程
DeepSeek 开源周第三弹:DeepGEMM —— 高效的 FP8 GEMM 库,核心代码仅 300 行!

DeepSeek 开源周第三弹:DeepGEMM —— 高效的 FP8 GEMM 库,核心代码仅 300 行!

热心网友
45
转载
2025-07-04

2025 年 2 月 26 日,在开源周的第三天,deepseek 正式推出了其高效的 fp8 通用矩阵乘法(gemm)库 —— deepgemm。该库不仅支持密集矩阵运算,还兼容混合专家(moe)架构的 gemm 操作,为 v3/r1 模型的训练与推理提供了强大助力。尤为引人注目的是,deepgemm 的核心代码仅约 300 行,却展现出卓越的性能表现。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

DeepSeek 开源周第三弹:DeepGEMM —— 高效的 FP8 GEMM 库,核心代码仅 300 行!

为何需要 DeepGEMM?在大规模模型的训练与推理中,矩阵乘法(GEMM,General Matrix Multiplications)是最关键的计算操作之一,尤其在深度学习过程中占据了大量计算资源。随着模型规模的不断扩展,特别是混合专家模型(MoE)的广泛应用,传统 GEMM 实现已难以满足高效计算的需求。MoE 模型通过动态激活部分专家来提升模型容量,但也带来了稀疏性和动态性的问题,使传统的密集矩阵乘法难以高效处理。

此外,低精度计算(如 FP8)在深度学习中的应用日益广泛,因其能够在降低内存消耗的同时维持较高的计算效率。然而,现有 GEMM 库对 FP8 的支持仍较为有限,特别是在 MoE 场景下,缺乏专门优化。DeepGEMM 的推出正是为了应对上述挑战,它实现了高效的 FP8 矩阵乘法,并同时支持密集和 MoE 两种模式,显著提升了大模型训练与推理的效率。

DeepGEMM 的主要特点

高性能:在 NVIDIA Hopper GPU 上,DeepGEMM 的 FP8 计算性能超过 1350 TFLOPS,内存带宽峰值达到 2668 GB/s。FP8 支持:作为首个专为 Hopper GPU 优化的 FP8 GEMM 库,DeepGEMM 能够有效减少内存占用并加速模型训练与推理过程。简洁而强大的实现:尽管核心代码仅约 300 行,但其性能超越了许多专家级优化内核,这得益于团队在算法设计上的精妙构思及对 GPU 架构特性的深入理解。即时编译(JIT):采用轻量级 JIT 模块,可根据硬件配置和输入尺寸在运行时动态生成高度优化的代码,从而进一步提升性能。支持密集与 MoE GEMM:不仅适用于传统密集矩阵乘法,还特别针对 MoE 模型中的 GEMM 运算进行了优化,满足多样化的模型计算需求。

DeepGEMM 的性能表现

DeepSeek 团队在 H800 GPU 上使用 NVCC 12.8 对 DeepGEMM 进行了全面测试,涵盖了 DeepSeek-V3/R1 推理中可能涉及的各种矩阵形状(包括预填充和解码阶段,但不包含张量并行)。测试结果表明,DeepGEMM 的计算性能最高可达 1358 TFLOPS,内存带宽峰值达 2668 GB/s。相比基于 CUTLASS 3.6 的优化实现,性能提升幅度最高达 2.7 倍;在 MoE 模型下的分组 GEMM(连续性布局和掩码布局)中,性能提升也超过 1.2 倍。

总结

DeepGEMM 的发布标志着 DeepSeek 在高效矩阵乘法计算领域取得了又一重要突破。该库不仅支持 FP8 低精度计算,还对 MoE 模型进行了深度优化,大幅提升了大模型训练与推理的效率。未来,DeepSeek 还将带来哪些令人期待的开源项目?让我们共同关注其在开源道路上的更多精彩表现。

参考资料deepseek-ai/DeepGEMM:https://www.php.cn/link/e0c082bdcbcf050ff454698580c89289

来源:https://www.php.cn/faq/1384996.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

FDUSD 脱锚危机之下:对币安影响几何?
web3.0
FDUSD 脱锚危机之下:对币安影响几何?

FDUSD脱锚惊魂夜:币安生态稳定币的信任危机与系统性风险 2025年4月2日夜间,加密货币市场经历了一场突如其来的“压力测试”。由香港First Digital Trust Limited发行的美元稳定币FDUSD,在市场上演了惊心动魄的脱锚跳水,其兑USDT价格一度暴跌至0 8726美元。这场震

热心网友
04.01
Obsidian同步方案对比:为什么Git更适合管理笔记库?
科技数码
Obsidian同步方案对比:为什么Git更适合管理笔记库?

最近又折腾了下 Obsidian 的 Git 插件,虽然也有点麻烦,但它是适合我的。下面介绍下怎么配置和使用。 第一次使用 Obsidian 是在 2024 年,这是翻阅之前的文章 《Obsidia

热心网友
02.13
华为8B代码模型突破,32B巨头对手面临新挑战
科技数码
华为8B代码模型突破,32B巨头对手面临新挑战

这项由华为技术有限公司、南洋理工大学、香港大学和香港中文大学联合完成的突破性研究发表于2026年1月,论文编号为arXiv:2601 01426v1。研究团队通过一种名为SWE-Lego的创新训练方

热心网友
01.10
Wavesurf Wave13发布:集成SWE-1.5模型与Git工作流,重塑AI代码编辑
电脑教程
Wavesurf Wave13发布:集成SWE-1.5模型与Git工作流,重塑AI代码编辑

12 月 27 日消息,科技媒体 NeoWin 今天(12 月 27 日)发布博文,报道称 AI 代码编辑器 Windsurf 本周发布 Wave 13 版,通过大幅升级多智能体工作流、性能可访问

热心网友
12.29
小蚁NEO:特性、交易与投资指南
web3.0
小蚁NEO:特性、交易与投资指南

NEO(小蚁区块链)旨在构建智能经济网络。NEO通过资产数字化和智能合约实现自动化管理,用户需在支持NEO交易的平台注册账户并获取数字货币,选择合适的交易对后,即可下单交易并确认。交易完成后,可在账户中查看NEO资产,或转移至个人数字储存中安全保管NEO。

热心网友
12.13

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

比特币重探7万美元,市场已全面消化美伊战争风险?
web3.0
比特币重探7万美元,市场已全面消化美伊战争风险?

清明节假期期间,A 股和港股休市,但比特币行情永不停歇。 4月6日,当多数市场还在假期中沉睡时,比特币已经悄然启动。价格从亚洲早盘的低点67400美元出发,一路向上试探,盘中最高涨破70300美元,不仅刷新了3月26日以来的高位,较日内低点的涨幅也超过了4%。以太坊的表现同样不俗,从2050美元附近

热心网友
04.07
魏思琪换上新机!REDMI K90至尊版来了 小米首款风冷旗舰
网络安全
魏思琪换上新机!REDMI K90至尊版来了 小米首款风冷旗舰

4月5日消息,日前,REDMI K90至尊版通过3C认证,预计将于本月发布。今日,小米中国区市场部总经理魏思琪用小米新机发布微博,不出意外,这正是即将登场的REDMI K90至尊版,这将是小米首款配

热心网友
04.07
WPS动态交互图表制作指南:让数据变化直观呈现
电脑教程
WPS动态交互图表制作指南:让数据变化直观呈现

WPS演示中图表不随数据更新时,可通过四种方法实现自动同步:一、用OFFSET+COUNTA定义动态名称绑定图表;二、用组合框控件联动VLOOKUP提取数据;三、用数据透视图配合切

热心网友
04.07
“链接未来·智汇静安”区块链创新应用优秀场景分享(四)| 信医基于区块链与隐私计算的真实世界研究数据产品
科技数码
“链接未来·智汇静安”区块链创新应用优秀场景分享(四)| 信医基于区块链与隐私计算的真实世界研究数据产品

聚焦数字技术,释放创新动能。为集中展示静安区区块链技术从“实验室”走向“应用场”的丰硕成果,挖掘一批可复制、可推广的行业解决方案,加速构建区块链产业生态闭环,静安区数据局特推出“静安区区块链创新应用

热心网友
04.07
天上的马桶与地上的火药桶,都在让美国出糗
科技数码
天上的马桶与地上的火药桶,都在让美国出糗

太空中的马桶堵了,边飞边修还能勉强用。但中东被点燃的火药桶,美国怎么来扑灭?靠一再延期的“最后通牒”?还是靠无底线的轰炸?2300万美元的马桶美国航空航天局4名宇航员1日搭乘“猎户座”飞船升空,执行

热心网友
04.07