两个月前,DeepSeek R1 的发布引发行业广泛关注。除了将推理成本压缩至令人惊叹的水平,它公开的大模型“思维链”(CoT,Chain-of-Thought)推理过程,也迅速成为业界瞩目的焦点。在人工智能领域,大规模语言模型(LLMs)通过生成长链式思维逐步推导答案,其优势显而易见——推理过程透明、结果可解释性强,且准确率表现优异。
然而,这一模式同样面临直接挑战:计算资源消耗高昂,输出延迟显著。
近期,Zoom 研究团队提出了一种全新的推理范式——「草稿链(Chain-of-Draft, CoD)」。其核心思路非常直观:模拟人类简洁高效的思考方式,在提升 AI 推理效率的同时大幅降低成本。实验数据显示,在相同任务中,采用 CoD 方法可减少高达 80% 的 Token 使用量,显著降低计算开销。
成本更低,准确率却并未明显妥协——这难道不是业界一直追求的理想状态吗?CoD 是否有望成为下一个主流推理范式?
如何让AI「少写点」?
无论是 OpenAI 的 o1 系列,还是 DeepSeek 的 R1 模型,在处理复杂任务时都充分展示了思维链(CoT)的强大能力。这一范式鼓励模型将问题拆解为一步步推理过程,类似于人类在纸上详细书写解题步骤。效果固然出色,但代价是消耗大量计算资源,输出内容冗长,响应延迟也随之攀升。
Zoom 的研究团队指出,人类解决问题的方式远比这种冗长表达简洁得多。“我们通常依赖简洁的草稿或速记来捕捉必要的见解,而不会进行不必要的详细阐述。”正是基于这一洞察,他们提出了「草稿链」——引导模型生成极简的中间推理步骤,仅保留解决问题的关键信息,大幅压缩冗余内容。
Zoom华人团队发表「草稿链」研究论文。图片来源:arXiv
这一灵感直接来源于人类认知过程。在面对复杂任务时——无论是解数学题、撰写论文还是编程——我们通常只会记录下推进问题解决的核心要点。通过模仿这种高效行为,LLMs 可以将注意力集中在解决方案的推进上,而非陷于冗长的逻辑描述。研究论文指出,这种方法不仅减少了信息冗余,还显著降低了计算成本与延迟,同时保持了与思维链相当的推理准确性。
通过一个简单的算术题,可以直观感受标准回答、思维链与草稿链之间的差异:
标准:问:杰森有20个棒棒糖。他给了丹尼一些棒棒糖。现在杰森有12个棒棒糖。杰森给了丹尼多少个棒棒糖?答:8
思维链:答:让我们一步步来思考:1. 最初,杰森有20个棒棒糖。2. 在给丹尼一些棒棒糖后,杰森现在有12个棒棒糖。3. 为了找出杰森给了丹尼多少个棒棒糖,我们需要计算最初的数量和剩余数量之间的差异。4. 我们可以设置一个简单的减法问题:最初的棒棒糖数 - 剩余的棒棒糖数 = 给丹尼的棒棒糖数。5. 把数字带入:20 - 12 = 给丹尼的棒棒糖数。6. 解决减法:20 - 12 = 8。因此,杰森给了丹尼8个棒棒糖。
草稿链:答:20 - x = 12;x = 20 - 12 = 8。#### 8
在标准回答模式下,模型直接输出答案「8」,缺乏推理过程,可解释性较弱,在多步推理任务中容易出错。思维链则生成了完整的推理文本,信息详细但略显冗长。相比之下,草稿链将推理过程简化为一个简洁的方程,答案置于响应末尾,并用分隔符「####」标记,大幅减少 Token 消耗,同时保持了推理的透明性与答案的正确性。
为验证 CoD 的有效性,Zoom 团队在多项基准测试中进行了评估,涵盖算术推理、常识推理和符号推理等任务。实验结果显示,草稿链在准确性方面与思维链表现相当,甚至在某些任务中略有优势,同时显著降低了 Token 使用量和响应延迟。
三种提示策略准确性与Token量对比。图片来源:arXiv论文
以算术推理为例,采用草稿链的 GPT-4o 和 Claude 3.5 Sonnet 在 GSM8k 数据集上的准确率分别为 91.1% 和 91.4%,而思维链对应的准确率为 95.4% 和 95.8%。尽管草稿链的准确率略低,但其 Token 使用量减少了 80%,延迟分别降低了 76.2% 和 48.4%。在常识推理与符号推理任务中,结果同样令人瞩目。例如,在掷硬币任务中,草稿链使 GPT-4o 的 Token 使用量减少 68%,Claude 3.5 Sonnet 减少 86%,同时均保持了 100% 的准确率。
部署AI,更省钱了?
Zoom 的研究人员还指出,类似「草稿链」的思路在去年已有相关探索,例如「简洁思维(CCoT)」和「Token 预算感知 LLM 推理」等方法,建议为推理步骤设定固定的全局 Token 预算。但问题在于,不同任务对预算的需求差异较大,难以实现性能与成本的最佳平衡。此外,LLM 往往无法严格遵守不切实际的预算限制,实际生成的 Token 数量常常远超预期。即便是动态预算估算,也需要额外调用 LLM,反而增加了延迟。
研究团队表示:“相比之下,我们的方法采用每步预算策略,允许无限推理步骤,使其更适应各类结构化推理技术。”
当然,「草稿链」也存在一定局限性。对于需要大量反思、自我纠正或外部知识检索的复杂任务,其表现可能不如传统思维链理想。
目前,这项研究被讨论最多的应用场景,是改变企业部署 AI 的成本结构,让模型以更少的计算资源、更低的成本进行高效推理。在成本敏感的场景中,CoD 的优势尤为突出。AI 研究员 Ajith Prabhakar 分析指出,对于每月处理 100 万条推理查询的企业而言,采用草稿链可将成本从 3800 美元(CoT 模式)降至 760 美元,每月节省超过 3000 美元——在规模化部署下,成本节约效果更加显著。
除了成本优势,草稿链还可能让 AI 驱动的应用响应更加迅速,在实时支持、智能教育和对话式 AI 等领域尤其具有应用价值,因为即使是短暂的延迟也会严重影响用户体验。
不过,值得注意的是,OpenAI 在 3 月 10 日发文指出,思维链监控可能是未来监督超人类模型的少数有效工具之一,“建议不要对前沿推理模型的 CoT 施加强烈的优化压力,保持 CoT 不受限制,以便进行监控。”因为模型在思维链中通常会清晰陈述其意图,使得人类能够观察模型的推理过程,从而检测出潜在的不当行为,例如在编程任务中绕过测试、欺骗用户,或在问题过难时直接放弃。
OpenAI发文提到思维链监控的好处。图片来源:X
无论如何,从「思维链」到「草稿链」,AI 推理范式仍在不断演进。就目前而言,随着应用场景持续扩展,在暂不考虑 AI 安全议题时,成本与速度正成为越来越难以绕开的关键指标。CoD 的出现,证明了业界仍在积极探索如何在保持大模型能力进步的同时,进一步降低部署成本,加速 AI 技术的广泛普及。
