草稿链Chain-of-Draft成为提示技术新王者_AI热点日报

草稿链Chain-of-Draft成为提示技术新王者

类型：热点整理2026-07-05

草稿链（Chain-of-Draft，简称CoD）提示技术的出现，正在重新定义大语言模型的推理方式。这项创新不仅在性能上超越了经典的思维链（Chain-of-Thought，CoT）提示，更以前所未有的幅度降低了推理成本与响应延迟。核心看点有三：CoD的独特机制、它与CoT的对比差异，以及它在减轻计

草稿链（Chain-of-Draft，简称CoD）提示技术的出现，正在重新定义大语言模型的推理方式。这项创新不仅在性能上超越了经典的思维链（Chain-of-Thought，CoT）提示，更以前所未有的幅度降低了推理成本与响应延迟。核心看点有三：CoD的独特机制、它与CoT的对比差异，以及它在减轻计算负担和缩短响应时间方面的实际潜力。

推理型大语言模型无疑是当下AI研究最受关注的议题。从最初的GPT-1一路发展到今天的Grok-3，这段历程堪称波澜壮阔，其间涌现出不少关键的推理方法。其中，思维链提示（无论是Few-shot还是Zero-shot版本）几乎引领了整个LLM推理的革命。而现在，来自Zoom Communications的研究人员带来了一个更优的方案——草稿链提示。它在准确性上不输CoT，而推理时使用的token数量最低仅占CoT的7.6%。对于当前那些动辄生成冗长推理链、计算成本高昂且延迟明显的大模型来说，这无疑是一个重大利好——高延迟恰恰是许多实时应用落地的最大瓶颈。本文将深入拆解草稿链提示的工作原理，并介绍如何利用它让模型变得更准、更省。

但首先，我们得聊聊提示技术

研究者在LLM中不断发现新的行为模式。从Transformer架构到生成式预训练模型GPT，当参数规模扩展到GPT-2（15亿参数）时，模型已经表现出无监督多任务学习的能力——无需在特定任务数据上微调，就能执行多项任务。而当参数激增至GPT-3的1750亿时，人们发现只要在输入提示中给出少量示例（Few-shot Prompting），模型就能快速适应新任务并表现优异。

随后一个更重要的发现浮出水面：如果把问题的解决过程分解成连续的中间推理步骤，并引导大模型逐一生成这些步骤，那么模型在算术、常识推理、符号推理等任务上能取得当时最先进的成绩。这个方法被称为思维链提示（Chain-of-Thought，CoT）。

标准提示与思维链提示的示例对比（图片来自 ArXiv 研究论文 'Chain-of-Thought Prompting Elicits Reasoning in Large Language Models'）

CoT之后很快又发现，LLM天生就是Zero-shot推理器。与原始的CoT不同，它们不需要通过few-shot推理示例来“辅导”，只需在提示末尾加上一句“Let's think step by step”，模型就能自动展开逐步推理。这种方法被称为零样本思维链提示（Zero-shot Chain of Thought Prompting）。

标准 Zero-shot 与 Few-shot 提示、原始 CoT 提示（表示为“(b) Few-shot-CoT”）以及 Zero-shot CoT 提示之间的比较（图片来自 ArXiv 研究论文 'Large Language Models are Zero-Shot Reasoners'）

不过研究人员很快意识到，仅仅链式推理加贪婪解码还不够。复杂的推理任务常常存在多条可行的推理路径，如果多条路径都指向同一个答案，那么最终答案就更有把握。于是诞生了一种新的解码策略——自洽性（Self-Consistency）：通过采样让模型生成多个推理路径，然后从中挑选最一致的答案。

CoT 提示中贪婪解码与自洽性的对比（图片来自 ArXiv 研究论文 'Self-Consistency Improves Chain of Thought Reasoning in Language Models'）

提示架构的演进

沿着“多条推理路径探索”的思路，思维树（Tree-of-Thoughts，ToT）框架应运而生。它用树状的思维过程来遍历解空间，把中间步骤称为“Thoughts”，并通过带有前瞻和必要回溯的搜索算法来评估和探索这些步骤。

思维树框架示意图（图片来自 ArXiv 研究论文 'Large Language Model Guided Tree-of-Thought'）

各类推理方法的对比（图片来自 ArXiv 研究论文 'Tree of Thoughts: Deliberate Problem Solving with Large Language Models'）

树状结构随后又被图状架构取代，产生了思维图（Graph-of-Thoughts）框架，从而更好地建模解空间。

思维图与其他推理方法的比较（图片来自 ArXiv 研究论文 'Graph of Thoughts: Solving Elaborate Problems with Large Language Models'）

但这还没完。提示远非提升LLM推理能力的唯一途径，其他技术也层出不穷。不过，有一个问题一直如影随形——延迟。

延迟问题怎么破？

探索推理空间本身就是一件计算极其昂贵的事情，它会显著拉长响应延迟。为了压缩延迟，研究者提出了一种变通方法：思维骨架（Skeleton-of-Thought，SoT）。它先引导模型生成一个答案的骨架或大纲，然后通过并行API调用或批量解码，一次性填充每个骨架点的内容。

思维骨架与标准解码的对比概述（图片来自 ArXiv 研究论文 'Skeleton-of-Thought: Prompting LLMs for Efficient Parallel Generation'）

另一方面，推理模型有时也会对简单的问题想得太多，生成大量不必要的推理token，导致从查询到响应的时长失控。

关于问题“2 加 3 的答案是什么？”生成的标记（图片来自 ArXiv 研究论文 'Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs'）

比如，QwQ-32-B-Preview模型为了算个2+3，竟然生成了这么长一段推理过程。

QwQ-32-B-Preview 对一个简单的算术问题过度思考（图片来自 ArXiv 研究论文 'Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs'）

研究人员尝试通过限制推理标记预算来解决这个问题，但LLM往往不遵守预算。后来又引入了一个额外LLM，根据问题的复杂性在回答前动态估算标记预算——但这反而进一步增加了延迟。

具有估计和提示功能的标记预算感知 LLM 推理 (TALE) 概述（图片来自 ArXiv 研究论文 'Token-Budget-Aware LLM Reasoning'）

那么，能不能把所有这些洞见整合起来，简化为单一方法？

“草稿链”提示法登场

回到根本。思维链（CoT）固然是提升LLM推理能力的利器，但它太冗长了——模型在得出答案之前常常生成成千上万个推理token。这与人类实际思考和推理的方式截然不同。人在思考时，并不会用极其啰嗦的语言一步步推理，而是仅记录下最关键的几个中间点——就像打草稿一样。

草稿链提示法（Chain-of-Draft，CoD）正是从这个灵感出发。它只是要求模型逐步思考，但把每个推理步骤限制在最多五个词以内。为了让模型真正理解这个要求，研究人员在提示中手动编写了若干草稿链的少样本示例。令人惊讶的是，这个限制并没有被强制执行，模型只是把它当作一般性指导原则来接受。

这与标准的少样本提示不同——后者在提示中给出查询-响应对，要求模型直接返回最终答案，不附带任何推理。同时，它也不同于思维链提示——后者在提示的查询-响应对中给出了详细的中间推理步骤。下面两张图清楚地展示了这些方法在处理简单算术题时的差异。

CoD 提示法的实战表现

为了评估CoD的效果，研究人员用标准提示、CoT提示和CoD提示分别对GPT-4o和Claude 3.5 Sonnet进行了测试。下图展示了针对每种方法所给予的系统提示。

标准、CoT 和 CoD 提示法的系统提示对比

在算术推理数据集GSM8K上，CoD达到了91%的准确率，同时使用的token比CoT少了80%。虽然精度略有下降（GPT-4o上CoD为91.1%，CoT为95.4%），但延迟大幅降低，且没有显著牺牲正确性。

不同提示技术在 GSM8K 上的评估结果

在BIG-bench任务的日期理解和体育理解两项常识推理测试中，CoD显著降低了延迟和token消耗，而准确率与CoT持平甚至更高。

BIG-bench 任务上的日期理解评估结果

尤其值得关注的是体育理解任务中与Claude 3.5 Sonnet搭配的结果：CoT的平均输出token为189.4，而CoD直接降到了14.3——减少幅度高达92.4%！

BIG-bench 任务上的体育理解评估结果

最后，在符号推理任务“硬币翻转”（预测一系列翻转后的最终硬币状态）上，CoD取得了100%的准确率，而且使用的token远少于其他方法。

研究人员创建的硬币翻转数据集中的问题示例

研究人员创建的包含 250 个测试用例的自定义数据集上的硬币翻转评估结果

这些结果令人眼前一亮。CoD提示法用最小的延迟实现了极高的准确率，大大缩短了响应时间，对于时间敏感或计算资源有限的应用场景尤其友好。此外，这类CoD数据还可以用来训练LLM更高效地推理（借鉴DeepSeek-R1的强化学习训练方法），让模型变得更快、更便宜、更具可扩展性。整个方向的前景确实令人兴奋。

来源：https://www.53ai.com/news/tishicijiqiao/2025032682510.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。