Draft Model_AI热词解释_游乐网

Draft Model

类型：AI模型概念2026-06-01

Draft Model（草稿模型）是投机解码技术中的关键组件，它是一个小型、快速的模型，用于生成初步的token序列草稿，然后由目标大模型进行验证和修正，从而在不影响最终质量的前提下大幅提升推理速度。

本次查询：Draft Model

中文解释：草稿模型

常见场景：大模型推理加速 / 文本生成优化

Draft Model是指一个轻量级模型，在投机解码流程中负责快速生成初步的输出草稿，再由主模型验证，从而提升推理效率。

大模型推理成本高、速度慢是实际部署中的核心瓶颈。Draft Model能以很小的计算代价生成候选序列，减少主模型的计算次数，显著降低延迟和资源消耗。

该技术让大模型在保持输出质量的同时，实现数倍的速度提升，因此被学术界和工业界广泛研究，并已应用于多个高性能推理框架中。

投机解码同时运行一个快速的小模型（Draft Model）和一个准确的大模型（Target Model）。Draft Model逐token生成草稿序列，然后由大模型并行验证草稿的正确性。

大模型只接受验证通过的部分，并以此为基础继续生成。这样一次推理能产出多个token，相当于用小型模型的计算换取大模型的加速，整体效率大幅提升。

主要应用于需要低延迟的大模型推理场景，如实时聊天机器人、代码补全、文档生成等。Draft Model可部署在边缘设备上，辅助云端大模型实现快速响应。

在模型服务框架（如vLLM、TensorRT-LLM）中也常集成投机解码模块，利用Draft Model降低用户等待时间，同时保证生成内容的连贯性和准确性。

容易与“蒸馏后的精简模型”混淆，但Draft Model不一定是蒸馏得到的，它可以是任意较小的模型，无需继承主模型的知识。

另外，Draft Model不负责最终输出质量，只生成候选；质量由主模型兜底。它与“草稿生成模型”（如初稿AI写作）不同，后者是独立完成完整输出的模型。

来源：AI 热词解释频道整理

Draft Model 投机解码推理加速大模型优化草稿生成