DeepSeek FlashMLA开源推理加速核心技术_AI热点日报

DeepSeek FlashMLA开源推理加速核心技术

类型：热点整理2026-07-01

上周五，DeepSeek在推特上宣布本周为OpenSourceWeek（开源周），计划连续五天陆续开源五个软件库。不出所料，周一上午9点，正值国内开工、硅谷临近下班的时间节点，首个项目如期发布——针对Hopper GPU的高效MLA解码内核：FlashMLA。正如外界预期，DeepSeek率先从推理

上周五，DeepSeek在推特上宣布本周为OpenSourceWeek（开源周），计划连续五天陆续开源五个软件库。

不出所料，周一上午9点，正值国内开工、硅谷临近下班的时间节点，首个项目如期发布——针对Hopper GPU的高效MLA解码内核：FlashMLA。正如外界预期，DeepSeek率先从推理加速方向切入，展示出在AI部署优化方面的技术实力。

刚刚！DeepSeek开源FlashMLA，推理加速核心技术

项目上线不到45分钟，Star数已突破400（截图时仍在快速攀升）。这一速度在开源社区中足以证明开发者对DeepSeek推理加速技术的期待与认可。

需要说明的是，MLA结构本身是DeepSeek大模型的核心技术创新之一。其设计思路是通过减少推理过程中的KV Cache，让更少的硬件资源支持更长的上下文窗口，从而显著降低推理成本。此次DeepSeek直接将改进版MLA解码内核进行开源，诚意十足，也为行业提供了可复用的高性能解决方案。

那么，FlashMLA究竟是什么？

简单来说，FlashMLA是专为Hopper GPU量身打造的高效MLA解码内核，针对可变长度序列的推理服务做了深度优化。目前公开的功能包括：

支持BF16精度
实现块大小为64的分页KVCache

在性能方面，基于H800 SXM5 GPU实测，内存带宽可达3000 GB/s的上限，算力达到580 TFLOPS。这样的吞吐能力在当前的推理场景中极具竞争力，能够有效加速大模型在线服务。

部署门槛并不高

要运行FlashMLA，仅需满足以下硬件与软件环境：

拥有Hopper架构的GPU
CUDA 12.3及以上版本
PyTorch 2.0及以上版本

安装过程十分简洁，只需执行一行命令：

python setup.py install

运行基准测试即可验证性能表现：

python tests/test_flash_mla.py

实测结果表明，在CUDA 12.6环境下、H800 SXM5上，能够稳定复现最高3000 GB/s的内存带宽以及580 TFLOPS的计算峰值。

用法也很直接

代码层的调用方式如下：

from flash_mla import get_mla_metadata, flash_mla_with_kvcache

tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)

for i in range(num_layers):
    ...
    o_i, lse_i = flash_mla_with_kvcache(
        q_i, kvcache_i, block_table, cache_seqlens, dv,
        tile_scheduler_metadata, num_splits, causal=True,
    )
    ...

项目发布后，社区反响极为热烈，有网友甚至打趣道：“听说第五天会是AGI。”这虽是一种夸张的表达，但也折射出外界对DeepSeek开源周后续项目的高度期待与关注。

来源：https://www.53ai.com/news/OpenSourceLLM/2025022485617.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。