华人团队CoD草稿链新技术减少80%Token大幅降低AI成本_AI热点日报

华人团队CoD草稿链新技术减少80%Token大幅降低AI成本

类型：热点整理2026-07-04

两个月前，DeepSeek R1 的发布引发行业广泛关注。除了将推理成本压缩至令人惊叹的水平，它公开的大模型“思维链”（CoT，Chain-of-Thought）推理过程，也迅速成为业界瞩目的焦点。在人工智能领域，大规模语言模型（LLMs）通过生成长链式思维逐步推导答案，其优势显而易见——推理过程透

两个月前，DeepSeek R1 的发布引发行业广泛关注。除了将推理成本压缩至令人惊叹的水平，它公开的大模型“思维链”（CoT，Chain-of-Thought）推理过程，也迅速成为业界瞩目的焦点。在人工智能领域，大规模语言模型（LLMs）通过生成长链式思维逐步推导答案，其优势显而易见——推理过程透明、结果可解释性强，且准确率表现优异。

然而，这一模式同样面临直接挑战：计算资源消耗高昂，输出延迟显著。

近期，Zoom 研究团队提出了一种全新的推理范式——「草稿链（Chain-of-Draft, CoD）」。其核心思路非常直观：模拟人类简洁高效的思考方式，在提升 AI 推理效率的同时大幅降低成本。实验数据显示，在相同任务中，采用 CoD 方法可减少高达 80% 的 Token 使用量，显著降低计算开销。

成本更低，准确率却并未明显妥协——这难道不是业界一直追求的理想状态吗？CoD 是否有望成为下一个主流推理范式？

如何让AI「少写点」？

无论是 OpenAI 的 o1 系列，还是 DeepSeek 的 R1 模型，在处理复杂任务时都充分展示了思维链（CoT）的强大能力。这一范式鼓励模型将问题拆解为一步步推理过程，类似于人类在纸上详细书写解题步骤。效果固然出色，但代价是消耗大量计算资源，输出内容冗长，响应延迟也随之攀升。

Zoom 的研究团队指出，人类解决问题的方式远比这种冗长表达简洁得多。“我们通常依赖简洁的草稿或速记来捕捉必要的见解，而不会进行不必要的详细阐述。”正是基于这一洞察，他们提出了「草稿链」——引导模型生成极简的中间推理步骤，仅保留解决问题的关键信息，大幅压缩冗余内容。

Zoom华人团队发表「草稿链」研究论文。图片来源：arXiv

这一灵感直接来源于人类认知过程。在面对复杂任务时——无论是解数学题、撰写论文还是编程——我们通常只会记录下推进问题解决的核心要点。通过模仿这种高效行为，LLMs 可以将注意力集中在解决方案的推进上，而非陷于冗长的逻辑描述。研究论文指出，这种方法不仅减少了信息冗余，还显著降低了计算成本与延迟，同时保持了与思维链相当的推理准确性。

通过一个简单的算术题，可以直观感受标准回答、思维链与草稿链之间的差异：

标准：问：杰森有20个棒棒糖。他给了丹尼一些棒棒糖。现在杰森有12个棒棒糖。杰森给了丹尼多少个棒棒糖？答：8

思维链：答：让我们一步步来思考：1. 最初，杰森有20个棒棒糖。2. 在给丹尼一些棒棒糖后，杰森现在有12个棒棒糖。3. 为了找出杰森给了丹尼多少个棒棒糖，我们需要计算最初的数量和剩余数量之间的差异。4. 我们可以设置一个简单的减法问题：最初的棒棒糖数 - 剩余的棒棒糖数 = 给丹尼的棒棒糖数。5. 把数字带入：20 - 12 = 给丹尼的棒棒糖数。6. 解决减法：20 - 12 = 8。因此，杰森给了丹尼8个棒棒糖。

草稿链：答：20 - x = 12；x = 20 - 12 = 8。#### 8

在标准回答模式下，模型直接输出答案「8」，缺乏推理过程，可解释性较弱，在多步推理任务中容易出错。思维链则生成了完整的推理文本，信息详细但略显冗长。相比之下，草稿链将推理过程简化为一个简洁的方程，答案置于响应末尾，并用分隔符「####」标记，大幅减少 Token 消耗，同时保持了推理的透明性与答案的正确性。

为验证 CoD 的有效性，Zoom 团队在多项基准测试中进行了评估，涵盖算术推理、常识推理和符号推理等任务。实验结果显示，草稿链在准确性方面与思维链表现相当，甚至在某些任务中略有优势，同时显著降低了 Token 使用量和响应延迟。

三种提示策略准确性与Token量对比。图片来源：arXiv论文

以算术推理为例，采用草稿链的 GPT-4o 和 Claude 3.5 Sonnet 在 GSM8k 数据集上的准确率分别为 91.1% 和 91.4%，而思维链对应的准确率为 95.4% 和 95.8%。尽管草稿链的准确率略低，但其 Token 使用量减少了 80%，延迟分别降低了 76.2% 和 48.4%。在常识推理与符号推理任务中，结果同样令人瞩目。例如，在掷硬币任务中，草稿链使 GPT-4o 的 Token 使用量减少 68%，Claude 3.5 Sonnet 减少 86%，同时均保持了 100% 的准确率。

部署AI，更省钱了？

Zoom 的研究人员还指出，类似「草稿链」的思路在去年已有相关探索，例如「简洁思维（CCoT）」和「Token 预算感知 LLM 推理」等方法，建议为推理步骤设定固定的全局 Token 预算。但问题在于，不同任务对预算的需求差异较大，难以实现性能与成本的最佳平衡。此外，LLM 往往无法严格遵守不切实际的预算限制，实际生成的 Token 数量常常远超预期。即便是动态预算估算，也需要额外调用 LLM，反而增加了延迟。

研究团队表示：“相比之下，我们的方法采用每步预算策略，允许无限推理步骤，使其更适应各类结构化推理技术。”

当然，「草稿链」也存在一定局限性。对于需要大量反思、自我纠正或外部知识检索的复杂任务，其表现可能不如传统思维链理想。

目前，这项研究被讨论最多的应用场景，是改变企业部署 AI 的成本结构，让模型以更少的计算资源、更低的成本进行高效推理。在成本敏感的场景中，CoD 的优势尤为突出。AI 研究员 Ajith Prabhakar 分析指出，对于每月处理 100 万条推理查询的企业而言，采用草稿链可将成本从 3800 美元（CoT 模式）降至 760 美元，每月节省超过 3000 美元——在规模化部署下，成本节约效果更加显著。

除了成本优势，草稿链还可能让 AI 驱动的应用响应更加迅速，在实时支持、智能教育和对话式 AI 等领域尤其具有应用价值，因为即使是短暂的延迟也会严重影响用户体验。

不过，值得注意的是，OpenAI 在 3 月 10 日发文指出，思维链监控可能是未来监督超人类模型的少数有效工具之一，“建议不要对前沿推理模型的 CoT 施加强烈的优化压力，保持 CoT 不受限制，以便进行监控。”因为模型在思维链中通常会清晰陈述其意图，使得人类能够观察模型的推理过程，从而检测出潜在的不当行为，例如在编程任务中绕过测试、欺骗用户，或在问题过难时直接放弃。

OpenAI发文提到思维链监控的好处。图片来源：X

无论如何，从「思维链」到「草稿链」，AI 推理范式仍在不断演进。就目前而言，随着应用场景持续扩展，在暂不考虑 AI 安全议题时，成本与速度正成为越来越难以绕开的关键指标。CoD 的出现，证明了业界仍在积极探索如何在保持大模型能力进步的同时，进一步降低部署成本，加速 AI 技术的广泛普及。

来源：https://www.53ai.com/news/LargeLanguageModel/2025031757120.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。