DeepSeek开源FlashMLA技术突破GPU性能极限_AI热点日报

DeepSeek开源FlashMLA技术突破GPU性能极限

类型：热点整理2026-06-30

2025年2月24日，DeepSeek正式开源了首个代码库——FlashMLA，这标志着其“开源周”计划正式拉开序幕。这并非一次简单的代码发布，而是一场针对GPU性能的“手术级”精细优化，直接瞄准AI推理加速中的核心瓶颈。接下来直接上干货，详细解读FlashMLA究竟实现了哪些突破。针对 Hopp

2025年2月24日，DeepSeek正式开源了首个代码库——FlashMLA，这标志着其“开源周”计划正式拉开序幕。这并非一次简单的代码发布，而是一场针对GPU性能的“手术级”精细优化，直接瞄准AI推理加速中的核心瓶颈。接下来直接上干货，详细解读FlashMLA究竟实现了哪些突破。

DeepSeek开源FlashMLA，突破GPU性能极限

FlashMLA是专为英伟达Hopper架构GPU（例如H800）量身打造的高效解码内核。其最大亮点在于优化了可变长度序列处理——简单来说，就是大模型在处理长对话或长文档时，不再像以往那样“一刀切”，而是根据实际的序列长度动态分配内存与算力，从而显著提升推理效率。

这里的核心技术是MLA架构，全称为Multi-head Latent Attention。其核心思路在于改造注意力机制，通过压缩KV Cache来降低内存占用，从而在相同硬件条件下支撑更长的上下文。

潜在注意力压缩：标准Transformer的KV Cache随序列长度线性增长（复杂度O(n²)），在长上下文场景下极易导致内存溢出。FlashMLA借助低秩投影（Low-rank Projection）将多头注意力中的K/V矩阵压缩至潜在空间，KV Cache体积直接缩减60%至80%。举例来说：原本需要40GB缓存的任务，现在仅需8至16GB即可完成。
分页KV缓存（块大小64）：采用更精细的内存管理策略，缓存利用率更高，延迟也进一步降低。
BF16精度支持：在计算性能与内存效率之间取得了理想平衡，完美适配当前主流的AI硬件。

在H800 SXM5 GPU上的实测数据令人瞩目：
内存带宽：在内存受限场景下达到3000 GB/s，远超H800的理论带宽上限（600 GB/s），几乎将硬件性能压榨至物理极限。
计算性能：在计算受限场景下实现580 TFLOPS，距离Hopper架构的理论峰值仅有一步之遥。

这意味着大模型的推理速度实现了质的飞跃，尤其适用于聊天机器人、文本生成等实时任务，同时部署成本也随之降低。

DeepSeek公布的对比实验数据进一步揭示了FlashMLA的显著优势。不仅在训练阶段大幅降低成本，在长上下文推理场景中也实现了重要突破。具体来说，它完成了以下三项优化：

可以说，FlashMLA的发布并非一次简单的代码开源，而是为整个AI推理优化领域提供了一整套可复用的工程范式。对于正在与GPU算力瓶颈周旋的团队而言，这个代码库值得第一时间上手实践。

来源：https://www.53ai.com/news/OpenSourceLLM/2025022426109.html

ai 人工智能

补充最近整理过的热点入口。