俄勒冈大学联合Adobe研究AI问答速度提升近8倍

时间：2026-05-21 11:13

Orthrus框架融合自回归与扩散模型，在保持大语言模型准确率的同时大幅提升生成速度。其核心是冻结的自回归模型理解问题并构建记忆，轻量级扩散头则利用记忆并行生成答案。训练仅需微调少量参数，推理时通过投票验证确保输出一致性。实验显示，该框架在多项任务中平均加速超5倍，最高近。

最近，一篇来自美国俄勒冈大学、Google DeepMind与Adobe Research的预印本论文引起了不小的关注。这篇编号为arXiv:2605.12825、发布于2026年5月的研究，提出了一个名为“Orthrus”的新框架。它的核心目标很明确：让大型语言模型在保持原有高智商的同时，把生成文字的速度提升近8倍。

不知道你有没有留意过，当你和ChatGPT这类AI对话时，它的回答总是一个词一个词地往外“蹦”？这背后其实揭示了当前几乎所有顶尖AI系统都面临的一个根本性瓶颈。而Orthrus，正是冲着打破这个瓶颈去的。

一、AI为什么只能一个字一个字地说话

我们可以用一个煮饺子的比喻来理解。想象一下，你必须等锅里的上一个饺子完全熟了，确认没问题，才能放下一个——这就是目前主流AI（技术上称为“自回归模型”）的工作方式。每生成一个词，它都得把前面说过的所有内容重新“回忆”一遍，才能决定下一个词是什么。这种方式保证了极高的准确性，但也注定了它的慢，因为它天生就是串行的，无法并行处理。

从技术原理看，这类模型把一段话的概率分解成一个链条：第一个词的概率，乘以给定第一个词后第二个词的概率，再乘以给定前两个词后第三个词的概率……如此递推。每生成一个新词，模型都需要在内存里读取一遍之前所有词对应的“键值缓存”（可以理解为它的“记忆本”），这就造成了严重的内存带宽瓶颈，导致硬件大量时间花在等待数据传输上，而非实际计算。

那么，有没有能“一锅出”的模型呢？有，那就是“扩散语言模型”。它的工作方式更像蒸包子——把一整段话的所有位置同时放进去处理，速度自然快得多。但这种方式有个致命伤：它在同时预测多个词时，会假设这些词之间相对独立。这就好比厨师同时调几种包子馅，却没考虑口味的前后搭配。这种对上下文关联的弱化，在面对需要严密逻辑的数学或编程问题时，会导致答案质量显著下降。有研究显示，顶尖的扩散语言模型在数学竞赛题上的准确率，比同等规模的自回归模型低了十多个百分点。

于是，AI领域长期陷入一个两难困境：要么慢而准，要么快但有失水准。Orthrus的出现，正是为了打破这个“鱼与熊掌不可兼得”的局面。

二、Orthrus的核心思路：让两个“大脑”共用一个记忆本

Orthrus这个名字取自希腊神话中的双头犬，一个身体，两个脑袋各司其职，非常形象地概括了其架构精髓。

研究团队洞察到一个关键事实：自回归模型真正慢的阶段，是“生成”答案的时候，而不是“理解”问题的时候。理解问题（即“预填充”阶段）其实是可以并行处理的。

基于此，Orthrus采取了一个精妙的策略：将原有的自回归模型完全“冻结”，保持其参数纹丝不动，只让它负责高质量地理解问题并构建“记忆本”（即KV缓存）。然后，在这个冻结的模型旁，额外接入一个轻量级的“扩散头”，专门负责快速、并行地生成答案。最关键的是，这个扩散头可以直接查阅自回归头建立的那个精准“记忆本”。

这个设计的优美之处在于，两个“头”共用同一份记忆，没有任何额外的内存浪费。扩散头直接站在自回归头的肩膀上，利用后者对上下文的高质量理解，来驱动自己的并行生成。

在数学形式上，扩散头的注意力计算可以表示为：它的查询向量同时关注来自自回归路径的键和值，以及来自自身并行块的键和值，两部分拼接后统一计算。由于自回归部分的键值缓存已在预填充阶段算好并直接复用，扩散视图不会引入任何额外的历史缓存内存开销。

三、训练：教会扩散脑袋模仿自回归脑袋的“口味”

光有结构还不够，得训练新加入的扩散头学会正确的并行预测。

训练过程有点像培训速记员。给定一篇文章，随机选取一些“锚点”，以每个锚点为起点，构造一个长度为32个词的“预测块”：保留第一个词（锚点词）作为参照，后面31个词全部用“[MASK]”遮住。然后，让扩散头一次性预测这31个被遮住的词。

这里有一套精心设计的注意力规则来防止“作弊”。训练时，注意力被严格划分为两种视野：自回归路径使用标准的因果遮挡（只能看前面），而扩散路径则遵循特殊规则——对于任意一个扩散查询位置，它只能关注该预测块锚点之前的自回归上下文（防止信息泄露），同时可以与同一个预测块内的其他位置相互关注（实现块内并行推理），但绝不能跨块查看。这套规则通过FlexAttention工具实现，确保了信息流向的正确性。

训练目标非常直接：让扩散头在每个被遮挡位置预测出的词概率分布，尽可能接近冻结的自回归头在该位置的预测分布。这在统计学上称为“前向KL散度蒸馏”——本质上是教扩散头学习自回归头对每个词的“偏好”，而不仅仅是猜最终答案。整个训练过程中，自回归骨干的参数始终保持冻结，梯度只流经新加入的扩散注意力模块。

整个训练过程出奇地轻量：仅需微调整个模型约16%的参数，在不到10亿条训练数据上训练两轮，使用8张H200显卡的单台服务器，不到24小时即可完成。相比之下，一些竞争方法需要500亿甚至5800亿条数据，成本相差数百倍。

四、推理：两个脑袋如何达成共识

训练好的Orthrus在实际工作时，遵循一个精妙的“投票验证”循环。

第一步，扩散头出手。它基于当前已生成的内容，加上32个[MASK]占位符，在一次并行前向计算中，一口气“猜”出未来32个可能的词。

第二步，自回归头验证。将扩散头猜出的这32个词填入序列，让冻结的自回归头用其标准的因果计算，检查每个位置上“按照我的判断，最应该出现的词是什么”。

第三步，从左到右逐一比对，执行“共识机制”。从第一个词开始，如果扩散头的猜测与自回归头的判断完全一致，就接受，然后看第二个；如果第二个也一致，继续接受……直到某个位置出现分歧。此时，停止接受扩散预测，用自回归头在该位置的判断作为“纠正词”，并丢弃这个纠正词之后的所有猜测。然后更新记忆本，开启下一轮循环。

这个机制的美妙之处在于，它在数学上严格保证了：Orthrus最终生成的序列，其概率分布与原始冻结的自回归模型完全一致。当扩散头猜得越准，一轮接受的连续词就越多，速度就越快；即使在最坏情况下，每轮循环也至少能稳定接受1个词（因为纠正词本身就是一个有效词），因此绝对不会比纯自回归更慢。对于带有温度参数的随机采样场景，框架采用严格的拒绝采样方法来对齐分布，同样保证无损。

五、实验结果：数字背后的真实表现

研究团队将Orthrus搭载在业界领先的Qwen3模型家族上，测试了1.7B、4B和8B三种规模，并在数学推理、代码生成等多个高难度基准上进行了全面评测。

衡量效率的核心指标是“每次前向传播的有效词数”（TPF）。纯自回归模型的TPF上限是1（每次只能确认1个词），而Orthrus的理论下限是0.5（两次传播确认1个词，即最差情况）。

实测结果令人印象深刻。在8B规模模型上，Orthrus在各类任务上的平均TPF达到5.39，这意味着平均每两次传播（一次扩散预测加一次自回归验证）就能确认约10.78个词，相当于纯自回归基线速度的5.36倍。在伪代码转真实代码这类结构规律性强的任务上，加速比甚至达到了7.83倍（即论文标题中“近8倍”的来源）。在数学竞赛题上，加速比为6.81倍。即使在最具挑战性的编程竞赛基准上，加速比也达到了6.68倍。

在准确率方面，Orthrus-Qwen3-8B在多个基准上的表现，例如GSM8K（96.0%）、MATH-500（86.2%）、HumanEval（95.1%），与Qwen3-8B原始自回归模型的表现完全一致——这得益于其共识机制的数学保证。

相比之下，同样基于Qwen3架构的竞争对手SDAR-Qwen3-8B，在MATH-500上只有78.6%，差距显著。另一个知名的Fast-dLLM-v2在MATH-500上只有61.5%，比自回归基线低了超过11个百分点。这印证了研究团队的核心观点：改造原有模型的权重，会不可避免地破坏其推理能力。

研究团队还将Orthrus与另一类加速方法“推测解码”进行了比较。推测解码的思路是用一个小模型先快速猜几个词，再让大模型一次性验证。虽然思路相似，但关键区别在于推测解码需要维护两套独立的“记忆本”，内存开销更大。对比结果显示，在MATH-500上，Orthrus的平均连续接受词数达到11.7，而两个前沿的推测解码系统分别为7.9和3.5。Orthrus的优势在于：扩散头和自回归头共享同一个表示空间，两者对语言的“理解”高度一致，因此预测得更准。

六、消融实验：每个设计细节都有它的道理

为了验证各个设计决策的合理性，研究团队进行了一系列对照实验。

关于并行预测块大小K：测试了K=4, 8, 16, 32四种设置。由于扩散头是整个块同时计算，增大K并不会增加单次前向传播的延迟。而TPF随着K增大单调上升：从K=4时的1.85，增长到K=32时的6.35。这意味着在延迟几乎不变的情况下，吞吐量提升了3.6倍。因此，K=32被选为默认配置。

关于训练目标的选择：比较了“软标签”（KL散度蒸馏，学习完整概率分布）和“硬标签”（标准交叉熵，直接预测正确答案）。两者最终准确率完全相同（都是86.2%），但推理速度有差异：软标签训练的TPF为6.35，硬标签的只有5.86。原因是硬标签训练会让扩散头过度拟合数据表面形式，而非真正模仿自回归头的“思维习惯”，导致推理时被否决的词更多，加速比下降。

关于是否需要多步迭代：测试了借鉴Fast-dLLM-v2的两步预测策略。结果表明，两步策略的TPF仅为3.53，远低于Orthrus单步策略的6.35。额外的推理步骤抵消了并行化带来的增益，证实单步预测是最优选择。

七、内存效率：几乎没有额外负担

除了速度，Orthrus在内存方面的表现同样出色。系统测量显示，在不同序列长度下，Orthrus相比Qwen3-8B基线的峰值GPU显存额外开销极小，不到100MiB，相对于基线18-20GiB的占用，增幅不到1%。

在KV缓存方面，由于两个视图共用同一份历史缓存，唯一的额外开销来自扩散块（32个并行位置）的临时状态，这是一个固定的常数（约4.5MiB），与序列长度无关。这在技术上被称为“O(1)缓存开销”——意味着即使处理非常长的对话，也不会因为使用Orthrus而产生额外的内存压力。

相比之下，传统推测解码方法需要为草稿模型单独维护一套完整的KV缓存，其额外开销会随着序列长度线性增长。

当然，Orthrus也有其局限性。由于自回归骨干被完全冻结，其生成能力上限就是基础模型的上限，无法超越。这意味着它本质上是一个推理加速框架，而非能力增强框架。基础模型存在的任何偏见、知识盲区或幻觉倾向，都会被原样继承。

总而言之，Orthrus在AI推理加速领域做了一件相当难得的事：在数学上严格证明并在实验上全面验证了“速度可以大幅提升，而准确率完全不降”。近8倍的速度提升，配合几乎为零的额外内存开销，以及仅需不到24小时就能完成的轻量训练，让这套方案具备了很强的实际部署价值。对于需要大规模运行AI服务的机构而言，同样的硬件资源可以服务近8倍数量的用户请求，这背后的经济价值不言而喻。

感兴趣的读者可以通过论文编号arXiv:2605.12825查阅完整内容，其代码已在GitHub上开源。

Q&A

Q1：Orthrus是如何保证生成结果和原始自回归模型完全一致的？

A：Orthrus通过其“共识机制”来保证。扩散头先并行猜测多个词，然后自回归头从左到右逐一验证，只接受与自回归判断完全一致的词，遇到分歧则停止并用自回归模型的判断纠正。这个过程在数学上等价于对自回归分布进行精确采样，因此输出分布与原模型严格一致。

Q2：Orthrus训练需要多少资源，普通机构能负担得起吗？

A：Orthrus的训练成本相当低。仅需微调约16%的模型参数，使用不到10亿条数据，在8张H200显卡的单台服务器上不到24小时即可完成。相比需要数百倍数据量的同类竞争方案，Orthrus的训练成本对大多数具备基本GPU资源的机构而言是可接受的。

Q3：Orthrus和推测解码有什么本质区别？

A：两者都采用“先猜后验”的思路加速生成，但核心区别在于架构集成方式。推测解码需要一个独立的草稿模型，并维护两套分离的KV缓存，内存开销随序列长度线性增长。Orthrus则将扩散头直接集成在原模型内部，两个视图共用同一套KV缓存，额外内存开销是固定的常数（约4.5MiB），不随序列长度变化，在生成长文本时内存优势尤为明显。

来源：https://www.163.com/dy/article/KTCVS8KC0511DTVV.html

Research

上一篇宜鼎推出全系列10GbE高速局域网扩展模块搭载英特尔控制器 下一篇海信激光电视X1 PRO发布 100英寸巨幕影院体验34999元起

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。