清华突破：草稿验证技术让AI回答提速5倍

时间：2025-12-20 22:55

这项由清华大学程子聪、杨国伟等研究人员领导的创新研究发表于2025年12月，论文编号为arXiv:2512 15176v1。该研究还得到了上海交通大学和Proxseer公司的支持，为大语言模型推理加

这项由清华大学程子聪、杨国伟等研究人员领导的创新研究发表于2025年12月，论文编号为arXiv:2512.15176v1。该研究还得到了上海交通大学和Proxseer公司的支持，为大语言模型推理加速领域带来了全新突破。

如果你曾经在等待ChatGPT或其他AI助手回答问题时感到不耐烦，那么清华大学研究团队的这项新发现可能会彻底改变你的体验。他们开发了一种名为DEER的创新技术，能够让AI的回答速度提升2到5倍，同时保证答案质量完全不变。

要理解这项技术的重要性，可以把当前的AI回答过程想象成一个作家在写小说。传统的AI就像一个极其严谨的作家，每写一个字都要反复斟酌，确保这个字与前面所有字完美衔接。这种方式虽然确保了质量，但速度极其缓慢。而DEER技术则像是给这个作家配备了一个快手助理——助理先快速写出一大段草稿，然后作家再逐字检查和修正。

当前大语言模型在生成文本时面临着一个根本性的效率瓶颈。就像多米诺骨牌一样，每个词都必须等待前一个词完全确定后才能生成，这种串行处理方式导致了严重的延迟问题。特别是在复杂推理和代理任务中，这种延迟会累积成令人难以忍受的等待时间。

研究团队发现，现有的"投机解码"方法虽然试图解决这个问题，但都存在一个致命缺陷——它们使用的辅助模型同样采用逐字生成的方式，就像用一个慢速打字员来帮助另一个慢速打字员一样，效果有限。更糟糕的是，这种方法还存在"信任度逐渐崩塌"的现象：随着草稿越写越长，早期错误会像滚雪球一样越滚越大，导致后面的内容越来越不可靠。

一、扩散模型：从图像生成到文本创作的华丽转身

DEER技术的核心创新在于使用了一种全新的草稿生成器——扩散语言模型。要理解这个概念，可以把它想象成一个特殊的创作过程。

传统的AI文本生成就像是用钢笔写字，必须从左到右一笔一划地写，每一笔都必须等前一笔完成。而扩散模型则像是用拼图的方式创作：它先在整张纸上随机撒一些字母碎片（这些碎片看起来毫无意义），然后通过特殊的"去噪"过程，逐渐将这些混乱的碎片整理成有意义的句子。

这种方法的巧妙之处在于，它可以同时处理整个句子中的所有位置，就像一个拼图高手能够同时在多个区域工作，而不是必须按照从左到右的顺序拼接。这样一来，一个32个词的句子可以在一次操作中全部生成出来，而不是需要32次连续的操作。

更重要的是，由于扩散模型生成的每个词都不依赖于草稿中前面的词，它避免了传统方法中的"错误累积"问题。就像每个拼图块都是独立放置的，一个位置的错误不会影响其他位置的准确性。

二、两阶段训练：让扩散模型学会写续集

虽然扩散模型理论上很强大，但要让它胜任"草稿助理"的工作，研究团队需要对其进行专门的训练。这个过程就像培训一个小说助理，需要教会它如何根据已有的故事情节来续写后面的内容。

第一阶段被称为"自回归式续写训练"。研究团队使用了一个巧妙的训练策略：他们将完整的答案随机截断，在截断处加上一个特殊的标记（就像书签一样），然后让扩散模型学习如何从这个书签位置继续写下去。这个过程反复进行，直到模型学会了如何根据任何给定的前文来生成合理的续写。

第二阶段被称为"精细化校准"。在这个阶段，研究团队特别关注草稿与原模型答案的对接部分。他们使用了一种指数衰减的权重策略，越靠近前文的部分给予越高的权重，确保生成的草稿在关键位置与目标模型高度一致。这就像训练一个接力赛跑手，不仅要跑得快，还要确保接棒时完美配合。

通过这两个训练阶段，扩散模型不仅学会了生成连贯的文本，还学会了与目标模型保持高度一致，为后续的验证过程奠定了基础。

三、草稿验证机制：确保质量的最后一道防线

DEER系统的验证过程采用了经典的"投机解码"框架，但因为使用了扩散模型作为草稿生成器，整个过程变得更加高效和可靠。

具体的验证过程可以这样理解：当扩散模型生成一个包含多个词的草稿后，目标模型会逐词检查这个草稿。对于每个词，系统会计算一个"接受概率"，这个概率反映了该词在当前上下文中的合理程度。如果概率足够高，这个词就会被接受；如果太低，系统就会拒绝这个词以及它后面的所有词，然后由目标模型重新生成。

这个过程的关键优势在于，由于扩散模型生成的草稿避免了错误累积，即使草稿很长，后面的词仍然有很高的被接受概率。实验结果显示，DEER能够生成长达32个词的草稿并获得较高的接受率，这远远超过了传统方法通常只能接受8-10个词的水平。

验证机制还采用了严格的数学保证，确保最终输出的文本与直接使用目标模型生成的文本在统计上完全一致。这意味着用户不仅能享受到速度提升，还能保证答案质量丝毫不受影响。

四、实验结果：从理论到实践的完美验证

研究团队在多个基准测试中验证了DEER的效果，结果令人印象深刻。在代码生成任务中，使用Qwen3-30B模型时，DEER在HumanEval基准上实现了5.54倍的加速，而当前最先进的EAGLE-3方法只能达到2.41倍的加速。

更令人惊讶的是草稿接受长度的巨大差异。在所有测试的模型规模上，DEER都能实现平均4-6个词的接受长度，最长可达32个词，而EAGLE-3通常只能接受3个词左右，最长不超过8个词。这种差异直接转化为了显著的速度提升。

在数学推理任务中，尽管研究团队使用的扩散模型训练还不够充分，DEER仍然在GSM8K、Math500等基准测试中超越了现有方法。在GSM8K测试中，DEER实现了2.23倍的加速，相比EAGLE-3的1.92倍有明显提升。

特别值得注意的是，随着目标模型规模的增大，DEER的优势变得更加明显。在14B和30B参数的模型上，DEER的性能提升尤为显著，这表明该技术在大模型上具有更大的应用潜力。

五、批量推理和新兴能力：超越预期的额外发现

除了单次对话的加速效果，DEER在批量推理场景中也表现出色。当同时处理多个请求时，DEER能够将吞吐量提升到传统方法的4倍以上。在处理16个并发请求时，DEER的处理速度达到了175.66 tokens/秒，而传统方法只有49.76 tokens/秒。

更有趣的是，研究团队发现训练后的扩散模型出现了一种意想不到的能力——"可靠的块再生成"。这种能力让模型能够接受部分被遮盖的代码片段，然后重新生成完整的代码块。这就像给一个程序员看一段不完整的代码，他能够理解上下文并补全缺失的部分。

这种新兴能力表明，DEER不仅是一个加速工具，还可能开启新的应用场景。例如，在代码补全、文档修复或创意写作辅助等领域，这种块级别的生成能力可能会带来全新的用户体验。

研究团队还发现，即使是训练不充分的扩散模型也能在DEER框架中发挥作用。这说明该方法具有很强的鲁棒性，不需要完美的草稿生成器就能获得显著的性能提升。

六、技术细节和工程实现：让理论走向现实

DEER的实现涉及多个技术层面的创新。在训练数据方面，研究团队使用了OpenCodeInstruct数据集进行代码任务训练，使用UltraChat数据集进行数学推理任务训练。训练过程采用了精心调优的超参数，确保扩散模型能够快速收敛到理想状态。

在推理优化方面，虽然当前主流的推理框架（如vLLM和SGLang）还不支持扩散语言模型的KV缓存，但已有相关技术（如Fast-dLLM和dInfer）正在快速发展。研究团队预期，一旦这些技术成熟并集成到主流框架中，DEER的性能优势将更加明显。

系统的内存使用也经过了优化。相比目标模型，DEER的草稿生成器只增加了约470M参数的额外开销，这在现代GPU上完全可以接受。而且由于草稿生成是并行的，整体内存访问模式也更加高效。

为了确保系统的正确性，研究团队提供了严格的数学证明，证明DEER输出的文本分布与直接使用目标模型完全一致。这种理论保证让用户可以放心使用该技术，而不用担心质量损失。

七、未来展望和应用前景：改变AI交互的游戏规则

DEER技术的意义远不止于提升现有AI系统的速度。它代表了一种全新的思维方式：通过模块化设计，将不同类型的模型优势结合起来，而不是试图用单一模型解决所有问题。

在实际应用中，DEER可能会催生新的AI服务模式。例如，在线AI助手可以提供更加流畅的实时对话体验；代码生成工具可以实现近乎实时的代码补全；创作辅助工具可以提供更加流畅的灵感展示。

从技术发展角度看，DEER也为扩散模型在自然语言处理领域的应用开辟了新道路。传统上，扩散模型主要用于图像和音频生成，而DEER证明了它们在文本生成加速方面的巨大潜力。

研究团队已经承诺开源相关代码和模型，这将加速技术的普及和进一步优化。可以预期，未来会有更多研究团队基于这个框架开发出针对特定应用场景的优化版本。

从更宏观的角度看，DEER类型的技术可能会改变我们对AI系统架构的理解。与其追求单一模型的全面优化，未来的AI系统可能会更多地采用专门化模块协作的方式，每个模块专注于自己最擅长的任务。

说到底，DEER技术的核心价值在于它证明了一个重要观点：通过巧妙的系统设计，我们可以在不牺牲质量的前提下大幅提升AI系统的效率。这种思路不仅适用于语言模型，也可能启发其他AI领域的创新。对于普通用户而言，这意味着未来的AI助手将变得更加高效和实用，让人工智能真正成为我们日常生活和工作中不可或缺的得力助手。

当我们回顾整个研究过程，可以看到这不仅仅是一个技术改进，更是一次思维方式的突破。通过将扩散模型的并行生成优势与自回归模型的精确验证能力相结合，DEER为整个AI加速领域指明了新的发展方向。

Q&A

Q1：DEER技术是什么？

A：DEER是清华大学开发的AI加速技术，它使用扩散模型快速生成文本草稿，然后用目标模型验证，能让AI回答速度提升2-5倍而不降低质量。就像给AI配了个快速写草稿的助理。

Q2：为什么DEER比现有方法快这么多？

A：关键在于DEER避免了传统方法的"错误累积"问题。传统方法生成草稿时每个词都依赖前面的词，错误会越积越多，而DEER的扩散模型能同时生成整个句子，避免了这种连锁反应。

Q3：普通用户什么时候能体验到DEER技术？

A：研究团队已承诺开源相关代码，但要集成到主流AI服务还需要时间。目前主要技术框架还不完全支持，预计在相关基础设施成熟后，用户就能在ChatGPT等服务中体验到类似的加速效果。

来源：https://www.163.com/dy/article/KH8IV0T90511DTVV.html