输入一个热词,快速查看术语含义、常见场景和相关概念。
集中展示常见热词解释,方便按概念和场景继续浏览。
KV Cache 是一种用于 Transformer 模型推理时的缓存技术,通过存储已经计算过的 Key 和 Value 矩阵,避免重复计算,从而大幅加快文本生成速度,降低延迟。它是当前主流大模型高效推理的标配方案。
近期常被查询的 AI 概念。