游乐游手机版

AI 热词解释

首页/AI热词解释/热词详情

PagedAttention:大模型推理的内存管理革新

类型:技术概念2026-06-01
PagedAttention借鉴操作系统的虚拟内存分页思想,将KV缓存划分为固定大小的页,通过页表实现非连续内存存储,有效减少显存碎片,提升大模型推理的吞吐量。它已广泛应用于vLLM等推理引擎中。

本次查询:PagedAttention

中文解释:分页注意力机制

常见场景:大模型推理优化

一句话解释

PagedAttention是一种用于大语言模型推理时的KV缓存管理技术,通过分页机制实现高效的内存分配与利用,显著降低显存碎片并提升推理吞吐。

为什么会被关注

传统LLM推理中,KV缓存通常占用连续显存,导致大量碎片无法利用,限制了批处理大小和吞吐量。PagedAttention通过分页思想打破连续性,使碎片显存得以复用,从而让单卡同时服务更多用户请求,成为高性能推理引擎(如vLLM)的关键技术。

核心逻辑

PagedAttention借鉴操作系统虚拟内存的分页概念:将KV缓存均匀切分为固定大小的“页”,每个页可以存储在物理显存的任意位置。模型推理时通过页表将逻辑连续的注意力计算映射到分散的物理页,实现按需分配和动态回收,彻底消除外部碎片。

常见场景

主要应用于基于Transformer的大模型在线推理服务,例如对话AI、代码生成、文本摘要等场景。当服务需要同时处理大量并发请求时,PagedAttention能有效降低显存峰值,使同一台GPU能承载更大规模的并发用户,并保持较低的首token延迟。

容易混淆的点

容易与FlashAttention混淆。FlashAttention主要优化注意力计算过程中的IO读写效率,通过分块减少显存访问次数;而PagedAttention专注于KV缓存的存储管理,解决显存分配碎片问题。两者可以互补,但属于不同的优化维度。

来源:AI 热词解释频道整理
上一篇Context Recall 上下文召回 下一篇FlashAttention 热词解析:如何让大模型“记住”更长的对话?

相关热词

继续查看关联概念解释。

最新热词

最近新增和整理过的热词内容。