本次查询:Draft Model
中文解释:草稿模型
常见场景:大模型推理加速 / 文本生成优化
一句话解释
Draft Model是指一个轻量级模型,在投机解码流程中负责快速生成初步的输出草稿,再由主模型验证,从而提升推理效率。
为什么会被关注
大模型推理成本高、速度慢是实际部署中的核心瓶颈。Draft Model能以很小的计算代价生成候选序列,减少主模型的计算次数,显著降低延迟和资源消耗。
该技术让大模型在保持输出质量的同时,实现数倍的速度提升,因此被学术界和工业界广泛研究,并已应用于多个高性能推理框架中。
核心逻辑
投机解码同时运行一个快速的小模型(Draft Model)和一个准确的大模型(Target Model)。Draft Model逐token生成草稿序列,然后由大模型并行验证草稿的正确性。
大模型只接受验证通过的部分,并以此为基础继续生成。这样一次推理能产出多个token,相当于用小型模型的计算换取大模型的加速,整体效率大幅提升。
常见场景
主要应用于需要低延迟的大模型推理场景,如实时聊天机器人、代码补全、文档生成等。Draft Model可部署在边缘设备上,辅助云端大模型实现快速响应。
在模型服务框架(如vLLM、TensorRT-LLM)中也常集成投机解码模块,利用Draft Model降低用户等待时间,同时保证生成内容的连贯性和准确性。
容易混淆的点
容易与“蒸馏后的精简模型”混淆,但Draft Model不一定是蒸馏得到的,它可以是任意较小的模型,无需继承主模型的知识。
另外,Draft Model不负责最终输出质量,只生成候选;质量由主模型兜底。它与“草稿生成模型”(如初稿AI写作)不同,后者是独立完成完整输出的模型。
