游乐游手机版
首页/AI热点日报/热点详情

DeepSeek FlashMLA开源推理加速核心技术

类型:热点整理2026-07-01
上周五,DeepSeek在推特上宣布本周为OpenSourceWeek(开源周),计划连续五天陆续开源五个软件库。不出所料,周一上午9点,正值国内开工、硅谷临近下班的时间节点,首个项目如期发布——针对Hopper GPU的高效MLA解码内核:FlashMLA。正如外界预期,DeepSeek率先从推理

上周五,DeepSeek在推特上宣布本周为OpenSourceWeek(开源周),计划连续五天陆续开源五个软件库。

不出所料,周一上午9点,正值国内开工、硅谷临近下班的时间节点,首个项目如期发布——针对Hopper GPU的高效MLA解码内核:FlashMLA。正如外界预期,DeepSeek率先从推理加速方向切入,展示出在AI部署优化方面的技术实力。

刚刚!DeepSeek开源FlashMLA,推理加速核心技术

项目上线不到45分钟,Star数已突破400(截图时仍在快速攀升)。这一速度在开源社区中足以证明开发者对DeepSeek推理加速技术的期待与认可。

需要说明的是,MLA结构本身是DeepSeek大模型的核心技术创新之一。其设计思路是通过减少推理过程中的KV Cache,让更少的硬件资源支持更长的上下文窗口,从而显著降低推理成本。此次DeepSeek直接将改进版MLA解码内核进行开源,诚意十足,也为行业提供了可复用的高性能解决方案。

那么,FlashMLA究竟是什么?

简单来说,FlashMLA是专为Hopper GPU量身打造的高效MLA解码内核,针对可变长度序列的推理服务做了深度优化。目前公开的功能包括:

  • 支持BF16精度
  • 实现块大小为64的分页KVCache

在性能方面,基于H800 SXM5 GPU实测,内存带宽可达3000 GB/s的上限,算力达到580 TFLOPS。这样的吞吐能力在当前的推理场景中极具竞争力,能够有效加速大模型在线服务。

部署门槛并不高

要运行FlashMLA,仅需满足以下硬件与软件环境:

  • 拥有Hopper架构的GPU
  • CUDA 12.3及以上版本
  • PyTorch 2.0及以上版本

安装过程十分简洁,只需执行一行命令:

python setup.py install

运行基准测试即可验证性能表现:

python tests/test_flash_mla.py

实测结果表明,在CUDA 12.6环境下、H800 SXM5上,能够稳定复现最高3000 GB/s的内存带宽以及580 TFLOPS的计算峰值。

用法也很直接

代码层的调用方式如下:

from flash_mla import get_mla_metadata, flash_mla_with_kvcache

tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)

for i in range(num_layers):
    ...
    o_i, lse_i = flash_mla_with_kvcache(
        q_i, kvcache_i, block_table, cache_seqlens, dv,
        tile_scheduler_metadata, num_splits, causal=True,
    )
    ...

项目发布后,社区反响极为热烈,有网友甚至打趣道:“听说第五天会是AGI。”这虽是一种夸张的表达,但也折射出外界对DeepSeek开源周后续项目的高度期待与关注。

来源:https://www.53ai.com/news/OpenSourceLLM/2025022485617.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。