游乐游手机版
首页/手机教程/文章详情

DeepSeek 开源周第三弹:DeepGEMM —— 高效的 FP8 GEMM 库,核心代码仅 300 行!

时间:2025-07-04 13:01
2025 年 2 月 26 日,在开源周的第三天,deepseek 正式推出了其高效的 fp8 通用矩阵乘法(gemm)库 —— deepgemm。该库不仅支持密集矩阵运算,还兼容

2025 年 2 月 26 日,在开源周的第三天,deepseek 正式推出了其高效的 fp8 通用矩阵乘法(gemm)库 —— deepgemm。该库不仅支持密集矩阵运算,还兼容混合专家(moe)架构的 gemm 操作,为 v3/r1 模型的训练与推理提供了强大助力。尤为引人注目的是,deepgemm 的核心代码仅约 300 行,却展现出卓越的性能表现。

DeepSeek 开源周第三弹:DeepGEMM —— 高效的 FP8 GEMM 库,核心代码仅 300 行!

为何需要 DeepGEMM?在大规模模型的训练与推理中,矩阵乘法(GEMM,General Matrix Multiplications)是最关键的计算操作之一,尤其在深度学习过程中占据了大量计算资源。随着模型规模的不断扩展,特别是混合专家模型(MoE)的广泛应用,传统 GEMM 实现已难以满足高效计算的需求。MoE 模型通过动态激活部分专家来提升模型容量,但也带来了稀疏性和动态性的问题,使传统的密集矩阵乘法难以高效处理。

此外,低精度计算(如 FP8)在深度学习中的应用日益广泛,因其能够在降低内存消耗的同时维持较高的计算效率。然而,现有 GEMM 库对 FP8 的支持仍较为有限,特别是在 MoE 场景下,缺乏专门优化。DeepGEMM 的推出正是为了应对上述挑战,它实现了高效的 FP8 矩阵乘法,并同时支持密集和 MoE 两种模式,显著提升了大模型训练与推理的效率。

DeepGEMM 的主要特点

高性能:在 NVIDIA Hopper GPU 上,DeepGEMM 的 FP8 计算性能超过 1350 TFLOPS,内存带宽峰值达到 2668 GB/s。FP8 支持:作为首个专为 Hopper GPU 优化的 FP8 GEMM 库,DeepGEMM 能够有效减少内存占用并加速模型训练与推理过程。简洁而强大的实现:尽管核心代码仅约 300 行,但其性能超越了许多专家级优化内核,这得益于团队在算法设计上的精妙构思及对 GPU 架构特性的深入理解。即时编译(JIT):采用轻量级 JIT 模块,可根据硬件配置和输入尺寸在运行时动态生成高度优化的代码,从而进一步提升性能。支持密集与 MoE GEMM:不仅适用于传统密集矩阵乘法,还特别针对 MoE 模型中的 GEMM 运算进行了优化,满足多样化的模型计算需求。

DeepGEMM 的性能表现

DeepSeek 团队在 H800 GPU 上使用 NVCC 12.8 对 DeepGEMM 进行了全面测试,涵盖了 DeepSeek-V3/R1 推理中可能涉及的各种矩阵形状(包括预填充和解码阶段,但不包含张量并行)。测试结果表明,DeepGEMM 的计算性能最高可达 1358 TFLOPS,内存带宽峰值达 2668 GB/s。相比基于 CUTLASS 3.6 的优化实现,性能提升幅度最高达 2.7 倍;在 MoE 模型下的分组 GEMM(连续性布局和掩码布局)中,性能提升也超过 1.2 倍。

总结

DeepGEMM 的发布标志着 DeepSeek 在高效矩阵乘法计算领域取得了又一重要突破。该库不仅支持 FP8 低精度计算,还对 MoE 模型进行了深度优化,大幅提升了大模型训练与推理的效率。未来,DeepSeek 还将带来哪些令人期待的开源项目?让我们共同关注其在开源道路上的更多精彩表现。

参考资料deepseek-ai/DeepGEMM:https://www.php.cn/link/e0c082bdcbcf050ff454698580c89289

来源:https://www.php.cn/faq/1384996.html
上一篇DeepSeek R1模型已完成小版本试升级 下一篇58同城缓存数据怎么清理
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
OTA更新和iTunes升级哪个更危险?两者风险区别详解
手机教程 · 2026-07-02

OTA更新和iTunes升级哪个更危险?两者风险区别详解

每次 iOS 大版本更新,总能在社交平台上看到不少用户集体吐槽:直接 OTA 升级后出现白苹果,进度条卡住一动不动,好几个小时过去都没反应。最后别无他法,只能把设备连上电脑,用 iTunes 或者爱思助手重新刷机,一刷完虽然能开机,但之前所有资料也全部被清空。 那么问题来了:为什么直接用手机 OTA

苹果iPhone 11 Pro 买64GB还是256GB版本 对比分析哪个更值得购买
手机教程 · 2026-07-02

苹果iPhone 11 Pro 买64GB还是256GB版本 对比分析哪个更值得购买

你有没有注意到,今年发布的iPhone 11 Pro,起步是64GB,跳过了128GB,直接到了256GB?64GB版本售价8699元,而256GB版本却要9999元,两者差价高达1300元。 坦白讲,iPhone 11 Pro的价格本来就高,预算充足的人直接拿下256GB没毛病。但对于普通用户来说

iOS 13更新后删除应用程序的三种方法完整攻略
手机教程 · 2026-07-02

iOS 13更新后删除应用程序的三种方法完整攻略

升级到 iOS 13 及更新版本后,深色模式、优化电池充电等功能确实很实用,但许多用户却发现——怎么连卸载应用都找不到入口了?其实功能并未改变,只是交互逻辑悄悄调整了。下面分享三种亲测有效的 iOS 13 删除 App 方法,帮你快速搞定。 长按图标,需要足够耐心 在 iOS 13 及更新系统中,长

一文读懂OTA升级与使用电脑升级的详细区别
手机教程 · 2026-07-02

一文读懂OTA升级与使用电脑升级的详细区别

长期以来,不少用户都在纠结一个看似简单却至关重要的问题:升级iOS系统时,究竟该选择OTA在线升级,还是下载固件连接电脑升级?这两种方式到底有什么区别?先给出一个核心结论:OTA虽然便捷,但在稳定性上远不如电脑升级。根本原因要从它们的底层原理说起。OTA是“Over the Air Technolo

旧款iOS设备升级最新系统必要性与原因详解
手机教程 · 2026-07-02

旧款iOS设备升级最新系统必要性与原因详解

苹果称11月3日起,旧款iPhone iPad若不更新系统,GPS、时间日期失效。涉及iPhone5及更早、iPad4及更早,需升级至iOS10 3 4或9 3 6。过期后只能通过iTunes更新。