清华、慕尼黑工大、南洋理工、UBC、UT Austin,以及德国ELLIS研究所和马克斯普朗克智能系统研究所,多家机构联手搞了一项研究,预印本已经挂出来了,编号是arXiv:2606.18195。感兴趣的可以直接去查原文,下面咱们聊聊里面的核心干货。
**训练AI的那些烦恼**
教大模型学会推理,这事儿有点像培训新员工。你给他出题,他答完,你只反馈一句“对了”或者“错了”——这就是强化学习,靠奖励信号驱动。问题在于,大部分时候他都是错的,而你只说了句“不行”,他完全不知道自己哪一步走偏了,只能反复碰运气、慢慢试。这其实就是所谓的“稀疏奖励”困境,效率低得让人头疼。
更聪明的做法,是找个经验丰富的老员工在旁边指导,每做一步都给出详细点评——“这步思路对了,那个推导有点问题”。这种方式叫“在线蒸馏”,依赖密集的过程指导而非最终结果。但前提是你得有一个更强的前辈模型,这本身就不容易,成本也不低。
于是研究者想到一个取巧的方案:让AI自己当自己的老师。这个思路就是“在线自蒸馏”(OPSD)——模型同时扮演学生和老师,学生解题,老师则掌握一些“内幕信息”来引导它。这个方法在普通自回归语言模型(比如ChatGPT那种逐字生成的模型)上已经被验证有效了。
但这批研究者把目光投向了另一类正在崛起的新模型——扩散语言模型。他们发现了一个被忽视的盲区:现有的自蒸馏方法都是为逐字生成量身定做的,硬搬到扩散语言模型上根本行不通。于是他们从头设计了一套专用方案,命名为d-OPSD,并在四项推理任务上验证了它的威力:同样的效果,只需要原来十分之一的训练步数。
**一、扩散语言模型究竟是什么?一种“从模糊到清晰”的生成方式**
要理解这项研究的价值,得先弄明白扩散语言模型和普通语言模型的根本区别。
普通大语言模型,比如GPT系列,生成文字的方式就像打字员,从左到右一个字一个字敲,每次只能看到已打出的内容,据此预测下一个字。这有个天然的限制:它无法回头修改,也无法同时考虑上下文的双向关系,每个字的决策只依赖左边的内容。
扩散语言模型则完全不同。它的生成过程更像版画师在一张空白版面上创作:最初,所有位置都被“遮住”(用一个特殊的mask标记表示),然后版画师一轮一轮地揭开最有把握的部分,每揭开一批,下一轮的判断就更准确,直到整张版面全部填满。这个过程叫“去噪”——从全遮到逐步清晰。
关键差异在于:在每一轮去噪中,模型可以同时看到所有已经揭开的位置,无论它们在文本中是在前还是在后。换句话说,扩散语言模型天然具备双向感知能力——既能看“前文”,也能看“后文”。正是这个特性,成了这项研究的核心突破口。
具体来说,训练时会有一个“加噪”过程:给定一段干净的答案,随机用mask盖住一部分,让模型从不完整信息中还原原文;推理时则反过来,从全遮序列出发,逐步揭开最有把握的位置,反复迭代直到生成完整答案。
**二、老办法为什么搬不过来?两个根本性的不兼容**
理解了扩散语言模型的运作方式,现有自蒸馏方法的问题就一清二楚了。
传统自蒸馏对普通语言模型的做法是这样的:把标准答案或参考解题过程直接附在题目后面,拼成一个“特权提示词”。老师模型拿到了加了参考答案的题目,学生模型只拿原始题目。老师因为看到了答案,预测自然更准;学生则在没有答案的条件下生成,并在每个词的位置上向老师靠拢。这套逻辑对逐字生成来说很自然——因为逐字生成本来就是看左边猜右边,把参考答案放在题目左边(作为前缀)顺理成章。
但扩散语言模型生成的是整段答案,不是一个个往下加词,没有“看左边猜右边”这事。把参考答案放左边,不仅设计感奇怪,而且研究者后续实验揭示了一个更严重的问题:这么做,老师和学生给每个位置的词汇预测几乎完全一样。换句话说,老师没有提供任何新信息——这种自蒸馏等于啥也没蒸,白费力气。
研究者用一个具体数据做了说明。他们定义了“Top-K重叠率”——在每个去噪步骤中,老师和学生对同一个位置的词汇排名最靠前的K个选项,有多少比例是重叠的。传统做法下,这个重叠率接近1,几乎完全相同;而新方法下,重叠率落在一个合理的中间范围,老师确实提供了学生不具备的新视角。
第二个不兼容是监督的粒度问题。普通语言模型天然以“下一个词”为单位,每生成一个词就有一次监督信号,叫“词级别监督”。扩散语言模型则不同——它每一步揭开的是一批词,只有那些在本轮被揭开的位置才真正参与了状态转变。如果强行套用词级别监督,就会把很多根本没参与决策的位置也纳入计算,信号来源混乱,优化方向失真。
三、核心创新一:让学生的“未来答案”成为老师的参考书
既然把参考答案放前面行不通,研究团队的解决思路充分利用了扩散语言模型独有的双向感知能力。
回到版画师的比喻。他每一轮揭开一批位置,版面上既有已确定内容,也有还被遮住的部分。普通语言模型只能看到左边已揭开的,但扩散语言模型可以同时感知整个版面,包括右边尚未揭开的位置。这意味着,如果我们偷偷在右边的位置写上一些“剧透信息”,模型是能看到并利用的。
d-OPSD的做法正是基于这个思路。具体流程是:先让学生模型正常生成一个完整答案(好比版画师完成了一幅作品),把这个完整答案存下来,称为“自生成的未来”。然后,在老师模型参与决策时,从这个完整答案中随机抽取一部分“提前揭示”——不是放题目前面,而是直接替换掉对应位置的mask,让老师在当前这轮去噪时就能看到这些“来自未来”的内容。
这个设计有一个精妙的比喻:就像一个人能穿越回十年前,带着对未来走向的了解重新做决策。十年前的你(学生)在当时并不知道结局,但另一个版本的你(老师)带着对结局的了解,给出的每一步建议自然更有依据。学生通过向老师学习,逐渐内化这种“来自未来的经验”。
“揭示多少未来信息”的程度由一个叫“保留比例”的参数控制,论文里记作ρteacher。比例越高,老师看到的未来越多,老师就越强。但研究者发现,老师并非越强越好——太强时,学生和老师的差距过大,学习信号反而难以消化。实验显示,保留比例设为0.25时效果最佳。
另外,研究者特别指出:老师看到的这些“未来信息”是学生自己生成的,不是数据集里的标准答案——这一点至关重要。因为学生生成的答案会随训练过程而变,老师也随之更新,整个过程始终保持“在线”,不会陷入依赖静态数据的困境。
四、核心创新二:把监督从“一个词”升级到“一个去噪步骤”
解决了老师的构建问题,还需要解决监督信号的粒度问题。
回到版画师的比喻。他每一轮会选出最有把握的几个位置,把它们从遮蔽状态揭开并确定下来。这些被揭开的位置,才是本轮真正发生状态变化的地方,也是本轮决策的主角。研究者的方案是:只在这些“本轮被揭开的位置”上计算老师和学生的分布差异,其余位置不参与本轮监督。
这个“本轮被揭开的位置集合”在论文里叫Kt,是从所有还被遮住的位置中,按预测置信度从高到低挑选出来的top-k个位置。在整个训练轨迹中,所有步骤的Kt合并起来,恰好覆盖所有位置——每个位置都会在被揭开的那一步参与恰好一次监督,既不重复也不遗漏。这种按步计算损失的方式被称为“步级别散度”。
有个细节值得注意:这个Kt应该由谁来决定?是学生最有把握的位置,还是老师最有把握的位置?研究者做了对比实验,发现以老师的置信度来选取Kt效果更好。背后的道理不难理解:老师因为看到了未来信息,它最有把握的位置往往是它能给出最强指导的位置,让学生在这些位置向老师学习,信号质量最高。
最终的训练目标,是在整个轨迹的所有步骤上,对所有Kt位置的KL散度(衡量两个概率分布差异的度量)取平均,让学生的预测分布逐步向老师靠拢。研究者选了“反向KL”而非“正向KL”,原因在于反向KL有“模式寻求”特性——它倾向于让学生专注于最可能的答案模式,而不是试图覆盖老师分布的所有可能性,这对推理任务更鲁棒。
五、几个让训练更稳定的工程细节
理论设计之外,研究团队还披露了几个让训练实际跑起来的工程技巧,这些细节在实践里至关重要。
其一是固定老师策略。老师和学生共享同一套模型参数,如果参数更新太快,老师的分布也会剧烈变化,导致每一步监督信号都不稳定。研究者的做法是把老师固定在训练开始时的初始参数上,只更新学生参数。这样老师提供的是一个稳定基准,学生可以踏实朝着这个目标靠近。
其二是逐词裁剪。计算KL散度时,某些位置的概率分布差异可能异常大(比如某个罕见词的概率差了好几个数量级),这些异常值如果不加限制,会主导整个梯度方向,让训练跑偏。研究者借鉴了其他工作的经验,对每个词汇位置的散度贡献施加一个上限,把过大偏差截断。实验证明,这显著提升了训练稳定性和最终性能——没有裁剪的版本大约150步后开始崩溃,最终准确率跌到69.37%;加了裁剪的版本则稳定爬升到81%。
其三是只在正确答案上训练。每道题,研究团队让学生模型最多尝试8次(类似pass@8),只要有一次生成正确答案,就用这个正确答案来构造自蒸馏的训练样本,计算损失并更新参数;如果8次都没生成正确答案,就跳过。实验表明,只在正确生成上训练,比在所有生成(包括错误答案)上训练效果更好,尽管两者都比基线强。
其四是输入拼接技巧。扩散语言模型每一步的注意力计算需要覆盖整个序列,如果把每一步的输入分别传入模型计算损失,内存占用会随步骤数线性增长,很快爆掉。研究者的办法是把整条轨迹中所有步骤的输入张量拼接成一个大批次,一次性传入模型。由于所有步骤共享同一套模型权重,梯度在拼接后的批次里保持独立,不需要额外存储中间状态,大幅节省了内存。
六、实验结果:四项任务全面碾压,训练步数仅需十分之一
研究团队在四项推理任务上对d-OPSD进行了系统评测,基础模型选了LLaDA-8B-Instruct——当时一个最先进的扩散语言模型。
四项任务分别是:GSM8K(小学数学应用题)、MATH500(竞赛级数学题)、Countdown(用三个数字通过四则运算凑目标数)、Sudoku(4×4数独)。前两个考验数学推理,后两个考验规划与约束求解。
对比的基线方法包括:强化学习类方法diffu-GRPO和VRPO,以及监督微调类方法SFT和d3LLM(一种基于静态数据集的离线自蒸馏方法)。
在性能上,d-OPSD在几乎所有设置下都达到或超越了最佳基线。以生成长度256为例:GSM8K上,d-OPSD达到81.0%,最强RLVR基线diffu-GRPO为79.8%;MATH500上,两者同为37.2%;Countdown上,d-OPSD以37.9%明显领先diffu-GRPO的33.2%;Sudoku上,d-OPSD以23.9%大幅超过diffu-GRPO的18.4%。
更令人印象深刻的是训练效率。达到峰值性能所需的优化步数(梯度更新次数),diffu-GRPO在GSM8K上需要7700步,d-OPSD只需425步;MATH500上diffu-GRPO需要6600步,d-OPSD只需100步;Countdown上diffu-GRPO需要5000步,d-OPSD只需175步;Sudoku上diffu-GRPO需要3800步,d-OPSD只需425步。平均下来,d-OPSD大约只需要原来约10%甚至更少的训练步数就能收敛。研究者将这种效率优势归因于步级别的密集监督——强化学习只在最终给出粗粒度奖励信号,而d-OPSD在每一步的每个位置都有来自老师的细颗粒度指导,信息密度远非强化学习可比。
此外,研究团队还做了一个“先验验证”实验,用来确认自蒸馏的前提条件是否成立:老师是否足够强,强到能引导学生?他们从训练集中随机抽了500道题,让学生生成答案后构造自老师输入,再用老师分布重新生成答案,观察正确率。结果显示,即使保留比例仅为0.10,老师的答题准确率也显著高于学生(例如GSM8K上,学生Pass@1为81.3%,而保留比例0.10的老师已达85.6%,0.50时达到94.8%,接近Pass@8的95.5%)。这证明了老师确实掌握了学生不具备的额外能力,自蒸馏的信息传递是有实质内容的。
七、新方法与老方法的正面对决:为什么“看未来”胜过“看参考答案”
为了单独验证自蒸馏老师的构建方式是否关键,研究者设计了一个控制变量实验:保持步级别散度监督不变,只把老师的构建方式换成传统的“把参考答案拼到题目前面”,其余完全相同,测试这个“AR风格OPSD”与d-OPSD的差距。
结果是:AR风格OPSD在GSM8K上达到78.4%,MATH500上达到33.4%;而d-OPSD分别达到81.0%和37.2%,差距明显。
前面提到的Top-K重叠率指标为这个差距提供了直接解释。研究者计算了两种方法下,每个去噪步骤中,老师和学生的词汇分布在各个位置的Top-20重叠比例。AR风格方法的重叠率接近1——老师和学生的预测几乎完全一致,老师没有提供任何超越学生的新信息,自蒸馏形同虚设。而d-OPSD的重叠率维持在一个适中范围,老师的分布与学生有实质差异,这种差异就是可以转移给学生的新知识和新思路。
这个发现有一定普遍意义:自蒸馏要有效,老师和学生之间必须存在有意义的差异,这个差异不能太大(学生学不会)也不能太小(没有可学的东西)。d-OPSD通过让老师看到学生自己生成的未来答案,而非静态的标准答案,恰到好处地制造了这种有益的分布差异。
八、方法的局限与已知失效场景
研究团队在论文中坦诚地披露了一个重要的失效模式:在某些训练设置下,d-OPSD在达到性能峰值之后会出现“政策崩溃”——性能急剧下降,模型变得无法正常工作。这与强化学习方法中观察到的同类现象一致。研究者推测,这种崩溃可能源于反向KL的“模式寻求”特性在后期训练中变得过于极端——模型越来越只盯着某几种答题模式,丧失了多样性和灵活性,最终彻底“死锁”。论文中展示的Countdown任务的训练曲线清晰地呈现了这种模式:性能在175步左右达到峰值后快速下滑。
这意味着在实践中需要仔细监控训练过程,选取合适的检查点,而不能无限制地延续训练。如何从根本上解决这一稳定性问题,是研究者明确指出的未来工作方向。
归根结底,这项研究的意义在于证明了一件事:专门为某类模型设计的训练方法,会比通用方法更有效,这种专门设计可以从根本原理出发,而不只是表面的参数调整。对于扩散语言模型这类还处于快速发展阶段的新兴技术来说,d-OPSD提供了一条在计算资源有限的情况下快速提升推理能力的可行路径。当然,政策崩溃这一悬而未决的问题,也提醒着研究者和使用者,这条路还没有完全铺平。想深入了解全部技术细节的,可以通过论文编号arXiv:2606.18195查阅完整原文。
Q&A
Q1:d-OPSD和普通强化学习训练扩散语言模型有什么区别?
A:强化学习训练扩散语言模型(如diffu-GRPO)只在模型生成完整答案后给一个“对了”或“错了”的信号,属于稀疏奖励,模型需要大量尝试才能学会。d-OPSD则是让模型同时扮演老师和学生,老师在每个去噪步骤都给出密集的指导信号,信息量远多于奖励信号,因此同等效果只需约十分之一的训练步数。
Q2:扩散语言模型的“自蒸馏老师”为什么要用模型自己生成的答案,而不是数据集里的标准答案?
A:研究者通过实验发现,用静态标准答案构造老师时,老师和学生的预测分布几乎完全相同(Top-K重叠率接近1),老师没有提供任何新知识,蒸馏等于无效。而用模型自己生成的答案做老师,老师和学生之间存在适度的分布差异,老师确实掌握了可以传递给学生的额外信息,蒸馏才真正有效。
Q3:d-OPSD训练过程中的“政策崩溃”是什么意思,有办法解决吗?
A:政策崩溃是指模型在达到最佳性能后,继续训练反而导致性能急剧下滑,模型变得无法正常推理。这与强化学习训练中观察到的类似现象一致,研究者推测是训练目标的“模式寻求”特性在后期过于极端所致。目前的应对方法是提前停止训练并选取峰值检查点,从根本上解决这一问题是论文指出的未来工作方向。
