输入一个热词,快速查看术语含义、常见场景和相关概念。
集中展示常见热词解释,方便按概念和场景继续浏览。
Speculative Decoding(投机解码)是一种加速大语言模型推理的采样方法。它利用一个轻量级的草稿模型快速生成多个候选 token,再用目标模型并行验证这些候选,从而减少目标模型的串行调用次数。该方法无需修改模型结构或重新训练,即可在不改变生成分布的前提下实现 2-3 倍的加速,尤其适合对延迟敏感的实时对话和推理场景。
近期常被查询的 AI 概念。