草稿链(Chain-of-Draft,简称CoD)提示技术的出现,正在重新定义大语言模型的推理方式。这项创新不仅在性能上超越了经典的思维链(Chain-of-Thought,CoT)提示,更以前所未有的幅度降低了推理成本与响应延迟。核心看点有三:CoD的独特机制、它与CoT的对比差异,以及它在减轻计算负担和缩短响应时间方面的实际潜力。
推理型大语言模型无疑是当下AI研究最受关注的议题。从最初的GPT-1一路发展到今天的Grok-3,这段历程堪称波澜壮阔,其间涌现出不少关键的推理方法。其中,思维链提示(无论是Few-shot还是Zero-shot版本)几乎引领了整个LLM推理的革命。而现在,来自Zoom Communications的研究人员带来了一个更优的方案——草稿链提示。它在准确性上不输CoT,而推理时使用的token数量最低仅占CoT的7.6%。对于当前那些动辄生成冗长推理链、计算成本高昂且延迟明显的大模型来说,这无疑是一个重大利好——高延迟恰恰是许多实时应用落地的最大瓶颈。本文将深入拆解草稿链提示的工作原理,并介绍如何利用它让模型变得更准、更省。
但首先,我们得聊聊提示技术
研究者在LLM中不断发现新的行为模式。从Transformer架构到生成式预训练模型GPT,当参数规模扩展到GPT-2(15亿参数)时,模型已经表现出无监督多任务学习的能力——无需在特定任务数据上微调,就能执行多项任务。而当参数激增至GPT-3的1750亿时,人们发现只要在输入提示中给出少量示例(Few-shot Prompting),模型就能快速适应新任务并表现优异。
随后一个更重要的发现浮出水面:如果把问题的解决过程分解成连续的中间推理步骤,并引导大模型逐一生成这些步骤,那么模型在算术、常识推理、符号推理等任务上能取得当时最先进的成绩。这个方法被称为思维链提示(Chain-of-Thought,CoT)。
标准提示与思维链提示的示例对比(图片来自 ArXiv 研究论文 'Chain-of-Thought Prompting Elicits Reasoning in Large Language Models')
CoT之后很快又发现,LLM天生就是Zero-shot推理器。与原始的CoT不同,它们不需要通过few-shot推理示例来“辅导”,只需在提示末尾加上一句“Let's think step by step”,模型就能自动展开逐步推理。这种方法被称为零样本思维链提示(Zero-shot Chain of Thought Prompting)。
标准 Zero-shot 与 Few-shot 提示、原始 CoT 提示(表示为“(b) Few-shot-CoT”)以及 Zero-shot CoT 提示之间的比较(图片来自 ArXiv 研究论文 'Large Language Models are Zero-Shot Reasoners')
不过研究人员很快意识到,仅仅链式推理加贪婪解码还不够。复杂的推理任务常常存在多条可行的推理路径,如果多条路径都指向同一个答案,那么最终答案就更有把握。于是诞生了一种新的解码策略——自洽性(Self-Consistency):通过采样让模型生成多个推理路径,然后从中挑选最一致的答案。
CoT 提示中贪婪解码与自洽性的对比(图片来自 ArXiv 研究论文 'Self-Consistency Improves Chain of Thought Reasoning in Language Models')
提示架构的演进
沿着“多条推理路径探索”的思路,思维树(Tree-of-Thoughts,ToT)框架应运而生。它用树状的思维过程来遍历解空间,把中间步骤称为“Thoughts”,并通过带有前瞻和必要回溯的搜索算法来评估和探索这些步骤。
思维树框架示意图(图片来自 ArXiv 研究论文 'Large Language Model Guided Tree-of-Thought')
各类推理方法的对比(图片来自 ArXiv 研究论文 'Tree of Thoughts: Deliberate Problem Solving with Large Language Models')
树状结构随后又被图状架构取代,产生了思维图(Graph-of-Thoughts)框架,从而更好地建模解空间。
思维图与其他推理方法的比较(图片来自 ArXiv 研究论文 'Graph of Thoughts: Solving Elaborate Problems with Large Language Models')
但这还没完。提示远非提升LLM推理能力的唯一途径,其他技术也层出不穷。不过,有一个问题一直如影随形——延迟。
延迟问题怎么破?
探索推理空间本身就是一件计算极其昂贵的事情,它会显著拉长响应延迟。为了压缩延迟,研究者提出了一种变通方法:思维骨架(Skeleton-of-Thought,SoT)。它先引导模型生成一个答案的骨架或大纲,然后通过并行API调用或批量解码,一次性填充每个骨架点的内容。
思维骨架与标准解码的对比概述(图片来自 ArXiv 研究论文 'Skeleton-of-Thought: Prompting LLMs for Efficient Parallel Generation')
另一方面,推理模型有时也会对简单的问题想得太多,生成大量不必要的推理token,导致从查询到响应的时长失控。
关于问题“2 加 3 的答案是什么?”生成的标记(图片来自 ArXiv 研究论文 'Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs')
比如,QwQ-32-B-Preview模型为了算个2+3,竟然生成了这么长一段推理过程。
QwQ-32-B-Preview 对一个简单的算术问题过度思考(图片来自 ArXiv 研究论文 'Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs')
研究人员尝试通过限制推理标记预算来解决这个问题,但LLM往往不遵守预算。后来又引入了一个额外LLM,根据问题的复杂性在回答前动态估算标记预算——但这反而进一步增加了延迟。
具有估计和提示功能的标记预算感知 LLM 推理 (TALE) 概述(图片来自 ArXiv 研究论文 'Token-Budget-Aware LLM Reasoning')
那么,能不能把所有这些洞见整合起来,简化为单一方法?
“草稿链”提示法登场
回到根本。思维链(CoT)固然是提升LLM推理能力的利器,但它太冗长了——模型在得出答案之前常常生成成千上万个推理token。这与人类实际思考和推理的方式截然不同。人在思考时,并不会用极其啰嗦的语言一步步推理,而是仅记录下最关键的几个中间点——就像打草稿一样。
草稿链提示法(Chain-of-Draft,CoD)正是从这个灵感出发。它只是要求模型逐步思考,但把每个推理步骤限制在最多五个词以内。为了让模型真正理解这个要求,研究人员在提示中手动编写了若干草稿链的少样本示例。令人惊讶的是,这个限制并没有被强制执行,模型只是把它当作一般性指导原则来接受。
这与标准的少样本提示不同——后者在提示中给出查询-响应对,要求模型直接返回最终答案,不附带任何推理。同时,它也不同于思维链提示——后者在提示的查询-响应对中给出了详细的中间推理步骤。下面两张图清楚地展示了这些方法在处理简单算术题时的差异。
CoD 提示法的实战表现
为了评估CoD的效果,研究人员用标准提示、CoT提示和CoD提示分别对GPT-4o和Claude 3.5 Sonnet进行了测试。下图展示了针对每种方法所给予的系统提示。
标准、CoT 和 CoD 提示法的系统提示对比
在算术推理数据集GSM8K上,CoD达到了91%的准确率,同时使用的token比CoT少了80%。虽然精度略有下降(GPT-4o上CoD为91.1%,CoT为95.4%),但延迟大幅降低,且没有显著牺牲正确性。
不同提示技术在 GSM8K 上的评估结果
在BIG-bench任务的日期理解和体育理解两项常识推理测试中,CoD显著降低了延迟和token消耗,而准确率与CoT持平甚至更高。
BIG-bench 任务上的日期理解评估结果
尤其值得关注的是体育理解任务中与Claude 3.5 Sonnet搭配的结果:CoT的平均输出token为189.4,而CoD直接降到了14.3——减少幅度高达92.4%!
BIG-bench 任务上的体育理解评估结果
最后,在符号推理任务“硬币翻转”(预测一系列翻转后的最终硬币状态)上,CoD取得了100%的准确率,而且使用的token远少于其他方法。
研究人员创建的硬币翻转数据集中的问题示例
研究人员创建的包含 250 个测试用例的自定义数据集上的硬币翻转评估结果
这些结果令人眼前一亮。CoD提示法用最小的延迟实现了极高的准确率,大大缩短了响应时间,对于时间敏感或计算资源有限的应用场景尤其友好。此外,这类CoD数据还可以用来训练LLM更高效地推理(借鉴DeepSeek-R1的强化学习训练方法),让模型变得更快、更便宜、更具可扩展性。整个方向的前景确实令人兴奋。
