俄勒冈大学联合Adobe研究AI问答速度提升近8倍

最近,一篇来自美国俄勒冈大学、Google DeepMind与Adobe Research的预印本论文引起了不小的关注。这篇编号为arXiv:2605.12825、发布于2026年5月的研究,提出了一个名为“Orthrus”的新框架。它的核心目标很明确:让大型语言模型在保持原有高智商的同时,把生成文字的速度提升近8倍。
不知道你有没有留意过,当你和ChatGPT这类AI对话时,它的回答总是一个词一个词地往外“蹦”?这背后其实揭示了当前几乎所有顶尖AI系统都面临的一个根本性瓶颈。而Orthrus,正是冲着打破这个瓶颈去的。
一、AI为什么只能一个字一个字地说话
我们可以用一个煮饺子的比喻来理解。想象一下,你必须等锅里的上一个饺子完全熟了,确认没问题,才能放下一个——这就是目前主流AI(技术上称为“自回归模型”)的工作方式。每生成一个词,它都得把前面说过的所有内容重新“回忆”一遍,才能决定下一个词是什么。这种方式保证了极高的准确性,但也注定了它的慢,因为它天生就是串行的,无法并行处理。
从技术原理看,这类模型把一段话的概率分解成一个链条:第一个词的概率,乘以给定第一个词后第二个词的概率,再乘以给定前两个词后第三个词的概率……如此递推。每生成一个新词,模型都需要在内存里读取一遍之前所有词对应的“键值缓存”(可以理解为它的“记忆本”),这就造成了严重的内存带宽瓶颈,导致硬件大量时间花在等待数据传输上,而非实际计算。
那么,有没有能“一锅出”的模型呢?有,那就是“扩散语言模型”。它的工作方式更像蒸包子——把一整段话的所有位置同时放进去处理,速度自然快得多。但这种方式有个致命伤:它在同时预测多个词时,会假设这些词之间相对独立。这就好比厨师同时调几种包子馅,却没考虑口味的前后搭配。这种对上下文关联的弱化,在面对需要严密逻辑的数学或编程问题时,会导致答案质量显著下降。有研究显示,顶尖的扩散语言模型在数学竞赛题上的准确率,比同等规模的自回归模型低了十多个百分点。
于是,AI领域长期陷入一个两难困境:要么慢而准,要么快但有失水准。Orthrus的出现,正是为了打破这个“鱼与熊掌不可兼得”的局面。
二、Orthrus的核心思路:让两个“大脑”共用一个记忆本
Orthrus这个名字取自希腊神话中的双头犬,一个身体,两个脑袋各司其职,非常形象地概括了其架构精髓。
研究团队洞察到一个关键事实:自回归模型真正慢的阶段,是“生成”答案的时候,而不是“理解”问题的时候。理解问题(即“预填充”阶段)其实是可以并行处理的。
基于此,Orthrus采取了一个精妙的策略:将原有的自回归模型完全“冻结”,保持其参数纹丝不动,只让它负责高质量地理解问题并构建“记忆本”(即KV缓存)。然后,在这个冻结的模型旁,额外接入一个轻量级的“扩散头”,专门负责快速、并行地生成答案。最关键的是,这个扩散头可以直接查阅自回归头建立的那个精准“记忆本”。
这个设计的优美之处在于,两个“头”共用同一份记忆,没有任何额外的内存浪费。扩散头直接站在自回归头的肩膀上,利用后者对上下文的高质量理解,来驱动自己的并行生成。
在数学形式上,扩散头的注意力计算可以表示为:它的查询向量同时关注来自自回归路径的键和值,以及来自自身并行块的键和值,两部分拼接后统一计算。由于自回归部分的键值缓存已在预填充阶段算好并直接复用,扩散视图不会引入任何额外的历史缓存内存开销。
三、训练:教会扩散脑袋模仿自回归脑袋的“口味”
光有结构还不够,得训练新加入的扩散头学会正确的并行预测。
训练过程有点像培训速记员。给定一篇文章,随机选取一些“锚点”,以每个锚点为起点,构造一个长度为32个词的“预测块”:保留第一个词(锚点词)作为参照,后面31个词全部用“[MASK]”遮住。然后,让扩散头一次性预测这31个被遮住的词。
这里有一套精心设计的注意力规则来防止“作弊”。训练时,注意力被严格划分为两种视野:自回归路径使用标准的因果遮挡(只能看前面),而扩散路径则遵循特殊规则——对于任意一个扩散查询位置,它只能关注该预测块锚点之前的自回归上下文(防止信息泄露),同时可以与同一个预测块内的其他位置相互关注(实现块内并行推理),但绝不能跨块查看。这套规则通过FlexAttention工具实现,确保了信息流向的正确性。
训练目标非常直接:让扩散头在每个被遮挡位置预测出的词概率分布,尽可能接近冻结的自回归头在该位置的预测分布。这在统计学上称为“前向KL散度蒸馏”——本质上是教扩散头学习自回归头对每个词的“偏好”,而不仅仅是猜最终答案。整个训练过程中,自回归骨干的参数始终保持冻结,梯度只流经新加入的扩散注意力模块。
整个训练过程出奇地轻量:仅需微调整个模型约16%的参数,在不到10亿条训练数据上训练两轮,使用8张H200显卡的单台服务器,不到24小时即可完成。相比之下,一些竞争方法需要500亿甚至5800亿条数据,成本相差数百倍。
四、推理:两个脑袋如何达成共识
训练好的Orthrus在实际工作时,遵循一个精妙的“投票验证”循环。
第一步,扩散头出手。它基于当前已生成的内容,加上32个[MASK]占位符,在一次并行前向计算中,一口气“猜”出未来32个可能的词。
第二步,自回归头验证。将扩散头猜出的这32个词填入序列,让冻结的自回归头用其标准的因果计算,检查每个位置上“按照我的判断,最应该出现的词是什么”。
第三步,从左到右逐一比对,执行“共识机制”。从第一个词开始,如果扩散头的猜测与自回归头的判断完全一致,就接受,然后看第二个;如果第二个也一致,继续接受……直到某个位置出现分歧。此时,停止接受扩散预测,用自回归头在该位置的判断作为“纠正词”,并丢弃这个纠正词之后的所有猜测。然后更新记忆本,开启下一轮循环。
这个机制的美妙之处在于,它在数学上严格保证了:Orthrus最终生成的序列,其概率分布与原始冻结的自回归模型完全一致。当扩散头猜得越准,一轮接受的连续词就越多,速度就越快;即使在最坏情况下,每轮循环也至少能稳定接受1个词(因为纠正词本身就是一个有效词),因此绝对不会比纯自回归更慢。对于带有温度参数的随机采样场景,框架采用严格的拒绝采样方法来对齐分布,同样保证无损。
五、实验结果:数字背后的真实表现
研究团队将Orthrus搭载在业界领先的Qwen3模型家族上,测试了1.7B、4B和8B三种规模,并在数学推理、代码生成等多个高难度基准上进行了全面评测。
衡量效率的核心指标是“每次前向传播的有效词数”(TPF)。纯自回归模型的TPF上限是1(每次只能确认1个词),而Orthrus的理论下限是0.5(两次传播确认1个词,即最差情况)。
实测结果令人印象深刻。在8B规模模型上,Orthrus在各类任务上的平均TPF达到5.39,这意味着平均每两次传播(一次扩散预测加一次自回归验证)就能确认约10.78个词,相当于纯自回归基线速度的5.36倍。在伪代码转真实代码这类结构规律性强的任务上,加速比甚至达到了7.83倍(即论文标题中“近8倍”的来源)。在数学竞赛题上,加速比为6.81倍。即使在最具挑战性的编程竞赛基准上,加速比也达到了6.68倍。
在准确率方面,Orthrus-Qwen3-8B在多个基准上的表现,例如GSM8K(96.0%)、MATH-500(86.2%)、HumanEval(95.1%),与Qwen3-8B原始自回归模型的表现完全一致——这得益于其共识机制的数学保证。
相比之下,同样基于Qwen3架构的竞争对手SDAR-Qwen3-8B,在MATH-500上只有78.6%,差距显著。另一个知名的Fast-dLLM-v2在MATH-500上只有61.5%,比自回归基线低了超过11个百分点。这印证了研究团队的核心观点:改造原有模型的权重,会不可避免地破坏其推理能力。
研究团队还将Orthrus与另一类加速方法“推测解码”进行了比较。推测解码的思路是用一个小模型先快速猜几个词,再让大模型一次性验证。虽然思路相似,但关键区别在于推测解码需要维护两套独立的“记忆本”,内存开销更大。对比结果显示,在MATH-500上,Orthrus的平均连续接受词数达到11.7,而两个前沿的推测解码系统分别为7.9和3.5。Orthrus的优势在于:扩散头和自回归头共享同一个表示空间,两者对语言的“理解”高度一致,因此预测得更准。
六、消融实验:每个设计细节都有它的道理
为了验证各个设计决策的合理性,研究团队进行了一系列对照实验。
关于并行预测块大小K:测试了K=4, 8, 16, 32四种设置。由于扩散头是整个块同时计算,增大K并不会增加单次前向传播的延迟。而TPF随着K增大单调上升:从K=4时的1.85,增长到K=32时的6.35。这意味着在延迟几乎不变的情况下,吞吐量提升了3.6倍。因此,K=32被选为默认配置。
关于训练目标的选择:比较了“软标签”(KL散度蒸馏,学习完整概率分布)和“硬标签”(标准交叉熵,直接预测正确答案)。两者最终准确率完全相同(都是86.2%),但推理速度有差异:软标签训练的TPF为6.35,硬标签的只有5.86。原因是硬标签训练会让扩散头过度拟合数据表面形式,而非真正模仿自回归头的“思维习惯”,导致推理时被否决的词更多,加速比下降。
关于是否需要多步迭代:测试了借鉴Fast-dLLM-v2的两步预测策略。结果表明,两步策略的TPF仅为3.53,远低于Orthrus单步策略的6.35。额外的推理步骤抵消了并行化带来的增益,证实单步预测是最优选择。
七、内存效率:几乎没有额外负担
除了速度,Orthrus在内存方面的表现同样出色。系统测量显示,在不同序列长度下,Orthrus相比Qwen3-8B基线的峰值GPU显存额外开销极小,不到100MiB,相对于基线18-20GiB的占用,增幅不到1%。
在KV缓存方面,由于两个视图共用同一份历史缓存,唯一的额外开销来自扩散块(32个并行位置)的临时状态,这是一个固定的常数(约4.5MiB),与序列长度无关。这在技术上被称为“O(1)缓存开销”——意味着即使处理非常长的对话,也不会因为使用Orthrus而产生额外的内存压力。
相比之下,传统推测解码方法需要为草稿模型单独维护一套完整的KV缓存,其额外开销会随着序列长度线性增长。
当然,Orthrus也有其局限性。由于自回归骨干被完全冻结,其生成能力上限就是基础模型的上限,无法超越。这意味着它本质上是一个推理加速框架,而非能力增强框架。基础模型存在的任何偏见、知识盲区或幻觉倾向,都会被原样继承。
总而言之,Orthrus在AI推理加速领域做了一件相当难得的事:在数学上严格证明并在实验上全面验证了“速度可以大幅提升,而准确率完全不降”。近8倍的速度提升,配合几乎为零的额外内存开销,以及仅需不到24小时就能完成的轻量训练,让这套方案具备了很强的实际部署价值。对于需要大规模运行AI服务的机构而言,同样的硬件资源可以服务近8倍数量的用户请求,这背后的经济价值不言而喻。
感兴趣的读者可以通过论文编号arXiv:2605.12825查阅完整内容,其代码已在GitHub上开源。
Q&A
Q1:Orthrus是如何保证生成结果和原始自回归模型完全一致的?
A:Orthrus通过其“共识机制”来保证。扩散头先并行猜测多个词,然后自回归头从左到右逐一验证,只接受与自回归判断完全一致的词,遇到分歧则停止并用自回归模型的判断纠正。这个过程在数学上等价于对自回归分布进行精确采样,因此输出分布与原模型严格一致。
Q2:Orthrus训练需要多少资源,普通机构能负担得起吗?
A:Orthrus的训练成本相当低。仅需微调约16%的模型参数,使用不到10亿条数据,在8张H200显卡的单台服务器上不到24小时即可完成。相比需要数百倍数据量的同类竞争方案,Orthrus的训练成本对大多数具备基本GPU资源的机构而言是可接受的。
Q3:Orthrus和推测解码有什么本质区别?
A:两者都采用“先猜后验”的思路加速生成,但核心区别在于架构集成方式。推测解码需要一个独立的草稿模型,并维护两套分离的KV缓存,内存开销随序列长度线性增长。Orthrus则将扩散头直接集成在原模型内部,两个视图共用同一套KV缓存,额外内存开销是固定的常数(约4.5MiB),不随序列长度变化,在生成长文本时内存优势尤为明显。
相关攻略
Orthrus框架融合自回归与扩散模型,在保持大语言模型准确率的同时大幅提升生成速度。其核心是冻结的自回归模型理解问题并构建记忆,轻量级扩散头则利用记忆并行生成答案。训练仅需微调少量参数,推理时通过投票验证确保输出一致性。实验显示,该框架在多项任务中平均加速超5倍,最高近。
2026年5月7日,Nous Research团队在预印本平台arXiv上发布了一项突破性研究(论文编号arXiv:2605 06546),提出了一种名为“词元叠加训练”(Token Superposition Training,简称TST)的创新方法。这项研究旨在破解当前大语言模型训练的核心效率瓶
TigerResearch与Smilegate资产管理公司深化合作,旨在通过定期发布多语种专业研究报告,为投资者提供数字资产市场分析、项目评估及趋势预判。此举致力于提升市场透明度,帮助投资者获取权威信息,把握行业机遇。
在信息爆炸的今天,快速获取信息已非难事,但如何高效地进行深度、多步骤的研究,依然是个不小的挑战。传统搜索引擎在处理这类复杂任务时,往往显得力不从心。为此,OpenAI推出了名为Deep Research的功能,它并非简单的搜索工具,而是一个AI驱动的研究助手,旨在帮助用户穿透信息表层,进行更全面、更
想象一下,你刚用AI生成了一段篝火视频,却总觉得差点意思——火焰颜色要是再蓝一点,或者燃烧得再猛烈些就好了。在过去,你只能一遍遍重新生成,全凭运气。但现在,情况不同了。Adobe Research与卡耐基梅隆大学在2026年3月联合发布了一项名为TokenDial的突破性技术,它给视频编辑装上了一套
热门专题
热门推荐
人工智能生成PPT讲稿能显著提升效率,节约时间成本,并辅助内容构思与视觉设计。然而,其生成内容可能存在深度不足、事实错误及同质化风险。技术的应用还需面对伦理、隐私及人类创意能力等挑战。关键在于使用者需平衡效率与质量,在利用工具优势的同时保持审慎。
币安安卓官方应用最新版本为v3 2 8,用户应通过官方网站渠道获取正版下载地址以确保安全。请务必从官网直接下载安装,避免使用不明来源的链接,以保护资产与个人信息安全。
生成式AI能快速制作PPT,显著提升效率并可能提供新视角。但其产出缺乏人类基于经验与共情的创造力,难以传递情感与构建动人故事,在专业适配和逻辑上也可能存在不足。未来趋势是人机协同:AI处理基础工作,人类专注创意与情感注入,实现技术赋能而非取代。
人工智能正改变PPT制作方式,显著提升效率与视觉表现力。用户输入主题即可快速生成结构清晰的草稿,并自动匹配设计元素。市场主流工具如CanvaAI等已验证其可行性,但生成内容仍需人工校对以保证专业性。未来趋势将更智能化和个性化,AI作为协作工具解放人力,使创作者更专注于策略与创意。
人工智能正变革PPT制作,显著提升效率与专业水准。AI能快速生成初稿并实现个性化设计,但内容质量仍依赖人的判断与引导。市场工具多样,各具特色。未来需平衡技术赋能与人文内核,让演示者更聚焦思想与情感共鸣。





