MWS AI与ITMO大学揭秘AI文字生成模型高效节能新方法

首页

热心网友

转载

2026-05-15

想象一下，一台高性能电脑生成一段文字，背后究竟要经历什么？很多人可能下意识地认为，AI说话就像打字，一个字一个字地蹦出来。但有一类新兴的AI文字生成技术，走的是一条截然不同的路：它不像打字员，更像一个反复修改草稿的作者——先把整篇文章“涂黑”，然后一遍又一遍地把涂黑的部分猜出来，直到整篇文章清晰成形。这就是“掩码扩散语言模型”（Masked Diffusion Language Model，简称MDLM）。

这种方式有个绕不开的难题：每一轮“猜测和修改”，都需要调用那个体积庞大的神经网络从头到尾运算一遍。如果要修改一千轮，就得跑一千次完整的大模型。计算成本高得惊人，而且和传统的逐字生成AI不同，这种模型还无法借助“记忆机制”（即KV缓存）来节省重复计算。

那么，这一千轮修改，真的每一轮都同样重要吗？有没有哪些轮次其实可以“偷懒”，用一个更小、更便宜的模型来代替？这正是由俄罗斯MWS AI与ITMO大学联合开展的一项研究试图回答的问题。他们发现，答案不仅是否定的，而且“哪些轮次可以偷懒”这件事，存在着清晰且可预测的规律。

省钱又不失质量？MWS AI与ITMO大学研究团队找到了让AI文字生成模型

一、从“全力以赴”到“按需分配”：为什么这个问题值得研究

回到那个“反复修改草稿”的比喻。一个作者在修改文章时，不同阶段的工作难度天差地别。第一遍修改，面对的是满纸涂黑，任务更像是凭直觉猜测大方向，比较粗糙。最后几遍修改，大部分内容已经成形，只剩下零星几个空白需要填补，也相对简单。真正烧脑的是中间阶段——文章已经有了雏形，但还有大量内容悬而未决，每个空白的填法都会牵一发而动全身，需要高度的理解力和判断力。

MDLM的生成过程和这个场景几乎一模一样。生成开始时，整篇文字都是空白，模型需要决定大体方向；生成结束前，大部分词语已经确定，只剩少数收尾工作；而中间阶段，已知信息和未知信息交织在一起，模型需要在复杂的上下文中做出精准判断。

顺着这个逻辑，一个核心假设便呼之欲出：中间阶段的修改可能最需要“聪明的大脑”，而开头和结尾阶段或许用一个“普通水平的替代者”就足够了。如果这个假设成立，就能在保证质量的前提下，大幅降低整体计算成本。

二、“替换实验”：用小模型顶替大模型，看看哪里会出问题

为了验证这个假设，研究团队设计了一个简洁而直接的实验框架。他们训练了一系列深度不同的Transformer模型——从4层到12层不等，架构相同，只是“楼层数”有多有少。12层的模型是“重量级选手”，4层的是“轻量级选手”。两者在同样的数据上、用同样的方法训练，唯一区别就是复杂程度不同。

由于Transformer的计算量和层数近似成正比，用4层替代12层，大约可以节省三分之二的单步计算量。如果将25%的生成步骤替换为轻量模型，整体计算量大约减少16.7%。

实验在两个风格迥异的数据集上分别进行：OpenWebText（英文网页文本，序列长度1024词）和LM1B（序列长度128词），以检验结论的普适性。

生成质量的衡量标准，是用一个预先训练好的GPT-2模型来“评分”：生成的文章在GPT-2看来越像正常英文，分数就越低（困惑度越低代表质量越高）。此外，还额外记录了生成文字的“多样性”，确保降低成本的同时，模型不会开始生成重复单调的内容。

实验的核心环节，是把1000步生成过程中的250步（即25%）分配给轻量模型，然后系统地尝试不同的“分配方案”，看哪种方案的生成质量最好、哪种最差。

三、中间最脆弱，两端最皮实：实验揭示的清晰规律

研究团队测试了多种分配方案，就像排班表一样安排轻重模型出场顺序。前250步用轻量模型，后750步用重量级模型；或者前750步重量级，后250步轻量；又或者把250步轻量步骤全部集中在中间段；甚至是“三明治”式——前125步轻量、中间750步重量级、最后125步轻量。

结果相当明确。把轻量模型放在生成过程的中间位置，生成质量会明显下降，困惑度急剧升高——文章变得语无伦次。而“三明治”方案表现最好，其次是把轻量步骤集中在最前面的方案。

换句话说，中间阶段对模型能力的依赖最强，一旦换成“普通水平的替代者”，生成质量就会显著受损。而开头和结尾两端，则对模型替换的容忍度要高得多。

更值得关注的是，这一规律在两个完全不同的数据集上都得到了印证。无论是长序列还是短序列，中间阶段的脆弱性都稳定出现。而且，在“有前缀辅助的生成”和“完全自由生成”两种模式下，规律同样成立。所有方案的生成多样性也几乎没有差异，说明这种“偷懒”策略不会让模型变得只会说车轱辘话。

四、穷举搜索：用暴力验证，让结论无懈可击

仅靠几种手工设计的方案，结论或许还有偶然性。为此，研究团队进行了一项更彻底的“穷举搜索”实验。

他们把1000步生成过程均匀切成10段，每段100步，然后从中选择4段交给轻量模型（共400步，即40%），剩余600步由重量级模型完成。这样的组合方式共有210种，研究团队对每一种都进行了实际测试。

在所有210种组合中，表现最好的前5名和表现最差的后5名呈现出了极其鲜明的对比。最佳方案无一例外地将轻量步骤集中在最前面几段和最后面几段；最差方案则无一例外地把轻量步骤堆在中间几段。

研究团队进一步统计了每一段在表现最佳和最差方案中间出现的频率，发现中间段在最差方案中频繁现身，而两端的段落在最佳方案中稳定高频出现。这种统计上的一致性，让“中间最敏感、两端最稳健”这个结论从经验观察上升为可信赖的规律。

基于这个发现，一条实用的操作建议便浮出水面：当需要节省计算成本时，应该把“省钱步骤”分散到生成过程的两端，而不是集中在中间。比如，如果要用60%的步骤都走轻量路线，可以采用“前300步轻量、中间400步重量级、后300步轻量”的对称安排。

五、省多少，差多少：量化成本与质量的交换关系

确定了最优布局之后，研究团队进一步量化了“省钱比例”和“质量损失”之间的换算关系。

固定采用“三明治”布局，仅调整轻量模型的层数，可以发现一条平滑的质量曲线。用4层轻量模型替代12层重量级模型，替换25%的步骤，困惑度从42.85上升到44.31，上升约3.41%，节省16.67%的计算量。换用6层、8层、10层模型，节省的计算量递减，质量损失也依次减小。

另一个维度是固定轻量模型为4层，调整它承担的步骤比例。从承担10%的步骤到50%，再到100%全走轻量路线，整条曲线平滑递进，没有出现突变或断崖。

这说明，这套“混合调度”策略提供了一个连续的质量-效率旋钮，开发者可以根据自己的实际需求自由调节，而不是面临“要么完整质量，要么糟糕输出”的二选一困境。

值得一提的是，实验中记录的实际墙钟时间节省幅度，比理论计算量节省幅度要小。这是因为在当前的模型实现中，词汇表投影层（将模型内部表示转换为具体词语概率的最后一步）的计算开销相当大，而这部分计算量在轻量模型和重量级模型中是相同的。对于4层轻量模型，这个词汇投影层占用了约81.6%的运行时间，Transformer层本身只占18.2%。这意味着在当前实现下，减少Transformer层数能节省的只是“可压缩部分”。但研究团队指出，这个瓶颈并非不可克服——已有更高效的词汇投影与概率计算内核可以大幅压缩这部分开销，一旦引入，实际加速效果将向理论值靠拢。

六、为什么中间最难？从“模型分歧”看背后机制

发现规律是第一步，理解规律为什么存在则更有意义。研究团队对此给出了两种互相印证的解释。

第一种解释来自“模型分歧分析”。研究团队在每个生成时间点上，让轻量模型和重量级模型对同一批部分涂黑的文字同时进行预测，然后比较两者的预测结果有多大差异。

分析发现，在生成过程的中间阶段（大约在整个时间轴的40%到60%区间），轻量模型和重量级模型的分歧达到顶峰，而在两端，两者的预测则相当接近。这一现象在LM1B数据集上同样出现，证明这是掩码扩散生成机制的内在属性。

第二种解释来自对穷举搜索结果的“反向分析”。统计发现，中间段在被替换时会导致质量明显变差，而两端的段落被替换时影响相对中性甚至略有改善。这与模型分歧分析的结论高度吻合，形成了相互支撑的证据链。

值得特别指出的是，连续图像扩散模型的研究显示，其时间步重要性通常呈现单调趋势。而掩码扩散语言模型这里出现的“中间最重要、两端最次要”的“驼峰形”规律，是一个之前未被发现的独特模式，说明文字的离散掩码扩散和图像的连续扩散在内在机制上确实存在本质差异。

七、关于这套方法还需要知道的几件事

这套“混合调度”策略最大的优势是简单。它不需要重新训练大模型，不需要进行任何“知识蒸馏”，也不需要修改生成算法的任何逻辑，只是在推理时决定“这一步用哪个模型”。两个模型各自独立训练，需要时切换，不需要时退场。

另一个值得关注的点是，这套策略与其他加速方法天然兼容。如果未来的MDLM系统引入了类似KV缓存的机制，可以在轻量和重量级模型上分别独立应用；如果采用了“跳步解码”，可以在剩余的步骤中继续应用混合调度。两种加速手段叠加，理论上能实现乘法效应的提速。

研究团队也坦诚指出了当前工作的局限。目前的实验规模相对适中，12层模型并非现实部署中的超大规模语言模型。随着预训练的多尺度MDLM系列逐渐出现，将这套方法迁移到更大规模并用标准化基准进行验证，是下一步自然的延伸。此外，当前的调度方案是固定的，未来可以探索“动态调度”——根据每一步当前序列的状态，实时决定是否需要调用重量级模型。

说到底，这项研究做的事情，本质上是在一个长长的流水线里找出哪些工序真正需要“高级工匠”，哪些工序交给“普通帮手”就够了。答案是：首尾两端的工序相对简单，中间的关键工序才是真正考验能力的地方。一旦认清这一点，就能在不显著牺牲最终产品质量的前提下，显著降低整体成本。

这对AI文字生成技术的实际应用意味着，掩码扩散模型将来不一定总是那个“又贵又慢”的选项。通过合理的“任务分配”，它完全有可能在保持输出质量的同时，将运算开销压缩到一个更易接受的范围。这让更多资源有限的研究者和开发者有机会使用和探索这类模型，也为未来将其集成到实际产品中开辟了一条更经济的路径。

Q&A

Q1：掩码扩散语言模型（MDLM）和常见的ChatGPT这类AI在生成文字时有什么本质区别？

A：ChatGPT这类自回归模型是从左到右一个词一个词地生成文字，每次只预测下一个词。掩码扩散语言模型（MDLM）则完全不同，它先把整段文字全部“涂黑”变成空白，然后反复运行数百到数千次，每次从空白中“猜测”出一部分词语，直到所有空白都被填满。这种方式可以并行处理整段文字，但每一轮都需要完整运行一次大模型，计算代价相当高。

Q2：混合模型调度策略为什么能节省计算量，节省的幅度大概有多少？

A：混合调度策略的核心是用一个“层数更少、计算更快”的小模型来承担部分生成步骤。由于Transformer模型的计算量和层数近似成正比，用4层模型替代12层模型，单步计算量约减少三分之二。实验结果显示，在生成质量损失约3.41%的前提下，可以节省约16.7%的总计算量。随着替换比例提高，可以节省更多计算量，但质量损失也会随之增大，两者之间存在平滑的权衡曲线。

Q3：为什么掩码扩散语言模型在生成中间阶段比图像扩散模型更敏感？

A：图像扩散模型处理的是连续数值（像素值），其步骤重要性通常单调递变；而掩码扩散语言模型处理的是离散词语，中间阶段面临的是“已有部分词语成形但大量词语仍悬而未决”的复杂局面，每个空白的填法都高度依赖上下文，需要更强的语言理解能力。这种离散符号预测的特殊复杂性，使得轻量模型和重量级模型在中间阶段的预测分歧最大，因此替换中间阶段代价最高。

这项由俄罗斯MWS AI与ITMO大学联合开展的研究，以预印本形式于2026年4月发布，论文编号为arXiv:2604.02340。感兴趣的读者可通过该编号在arXiv平台查阅完整论文。

来源:https://www.techwalker.com/2026/0422/3184734.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：中国材料科学家李昊谈AI科研三项代表性工作下一篇：慕尼黑大学AI仅凭动作预测视频速度提升万倍