上周五,DeepSeek在推特上宣布本周为OpenSourceWeek(开源周),计划连续五天陆续开源五个软件库。
不出所料,周一上午9点,正值国内开工、硅谷临近下班的时间节点,首个项目如期发布——针对Hopper GPU的高效MLA解码内核:FlashMLA。正如外界预期,DeepSeek率先从推理加速方向切入,展示出在AI部署优化方面的技术实力。

项目上线不到45分钟,Star数已突破400(截图时仍在快速攀升)。这一速度在开源社区中足以证明开发者对DeepSeek推理加速技术的期待与认可。
需要说明的是,MLA结构本身是DeepSeek大模型的核心技术创新之一。其设计思路是通过减少推理过程中的KV Cache,让更少的硬件资源支持更长的上下文窗口,从而显著降低推理成本。此次DeepSeek直接将改进版MLA解码内核进行开源,诚意十足,也为行业提供了可复用的高性能解决方案。
那么,FlashMLA究竟是什么?
简单来说,FlashMLA是专为Hopper GPU量身打造的高效MLA解码内核,针对可变长度序列的推理服务做了深度优化。目前公开的功能包括:
- 支持BF16精度
- 实现块大小为64的分页KVCache
在性能方面,基于H800 SXM5 GPU实测,内存带宽可达3000 GB/s的上限,算力达到580 TFLOPS。这样的吞吐能力在当前的推理场景中极具竞争力,能够有效加速大模型在线服务。
部署门槛并不高
要运行FlashMLA,仅需满足以下硬件与软件环境:
- 拥有Hopper架构的GPU
- CUDA 12.3及以上版本
- PyTorch 2.0及以上版本
安装过程十分简洁,只需执行一行命令:
python setup.py install
运行基准测试即可验证性能表现:
python tests/test_flash_mla.py
实测结果表明,在CUDA 12.6环境下、H800 SXM5上,能够稳定复现最高3000 GB/s的内存带宽以及580 TFLOPS的计算峰值。
用法也很直接
代码层的调用方式如下:
from flash_mla import get_mla_metadata, flash_mla_with_kvcache
tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)
for i in range(num_layers):
...
o_i, lse_i = flash_mla_with_kvcache(
q_i, kvcache_i, block_table, cache_seqlens, dv,
tile_scheduler_metadata, num_splits, causal=True,
)
...项目发布后,社区反响极为热烈,有网友甚至打趣道:“听说第五天会是AGI。”这虽是一种夸张的表达,但也折射出外界对DeepSeek开源周后续项目的高度期待与关注。
