PagedAttention：大模型推理的内存管理革新_AI热词解释_游乐网

PagedAttention：大模型推理的内存管理革新

类型：技术概念2026-06-01

PagedAttention借鉴操作系统的虚拟内存分页思想，将KV缓存划分为固定大小的页，通过页表实现非连续内存存储，有效减少显存碎片，提升大模型推理的吞吐量。它已广泛应用于vLLM等推理引擎中。

本次查询：PagedAttention

中文解释：分页注意力机制

常见场景：大模型推理优化

PagedAttention是一种用于大语言模型推理时的KV缓存管理技术，通过分页机制实现高效的内存分配与利用，显著降低显存碎片并提升推理吞吐。

传统LLM推理中，KV缓存通常占用连续显存，导致大量碎片无法利用，限制了批处理大小和吞吐量。PagedAttention通过分页思想打破连续性，使碎片显存得以复用，从而让单卡同时服务更多用户请求，成为高性能推理引擎（如vLLM）的关键技术。

PagedAttention借鉴操作系统虚拟内存的分页概念：将KV缓存均匀切分为固定大小的“页”，每个页可以存储在物理显存的任意位置。模型推理时通过页表将逻辑连续的注意力计算映射到分散的物理页，实现按需分配和动态回收，彻底消除外部碎片。

主要应用于基于Transformer的大模型在线推理服务，例如对话AI、代码生成、文本摘要等场景。当服务需要同时处理大量并发请求时，PagedAttention能有效降低显存峰值，使同一台GPU能承载更大规模的并发用户，并保持较低的首token延迟。

容易与FlashAttention混淆。FlashAttention主要优化注意力计算过程中的IO读写效率，通过分块减少显存访问次数；而PagedAttention专注于KV缓存的存储管理，解决显存分配碎片问题。两者可以互补，但属于不同的优化维度。

来源：AI 热词解释频道整理

PagedAttention vLLM LLM推理 KV缓存显存管理