多token预测实现大模型训练加速与性能提升_AI热点日报

多token预测实现大模型训练加速与性能提升

类型：热点整理2026-05-31

在训练语言模型时同时预测多个未来token，可提升样本效率和推理能力，并加快推理速度。该方法通过增加多个输出头与共享主干，迫使模型学习更丰富的上下文表征。实验表明，13B模型在代码生成任务上解决率提升12%-17%，推理速度最高提升3倍，且不增加训练与推理开销。

本项研究得出的核心结论十分明确：在语言模型训练过程中，采用同时预测多个未来 token 的策略，不仅可以显著提高样本利用效率，还能有效增强模型推理能力，甚至加速推理过程。虽然这与传统的逐 token 预测方式背道而驰，但作者通过实验证实，这一看似简单的调整带来了令人惊喜的效果。

为什么需要多 token 预测？

当前主流的大语言模型（如GPT系列）尽管性能表现优异，但其核心训练范式——仅基于下一个 token 的预测——实际上存在效率偏低的问题。相比之下，人类儿童仅凭有限的语料输入就能习得复杂的语法和逻辑推理能力，而大模型却需要消耗整个互联网级别的海量数据才能达到类似水平。这种效率上的巨大差距，推动研究人员探索新的训练策略：是否可以通过改变训练目标，让模型学习得更快、更高效？

传统单 token 预测本质上属于“短视”的局部依赖建模——模型只关注下一个词是什么，而忽略了更远距离的语义连贯性与结构逻辑。多 token 预测的思路正是打破这一局限：让模型在每个位置同时猜测未来 n 个 token，迫使其建立更长距离的上下文依赖关系。

具体怎么实现？

论文提出的实现方案并不复杂。在训练语料的每个位置，模型会设置多个独立的输出头（output heads），分别负责预测未来第1个、第2个……直到第n个 token。所有这些输出头共享同一模型主干（backbone），因此整体计算量不会成倍增长。这种设计本质上是一种“辅助训练任务”：在预测下一个 token 的同时，模型还需尝试猜测后续的若干词汇。而在推理阶段，模型仅需输出下一个 token，因此实际部署不会引入任何额外开销。

核心在于，这种多任务学习机制迫使模型的主干网络学习到更丰富的上下文表征，因为这些表征必须同时支撑多个不同的预测任务。实验表明，即便仅增加一个额外的预测头（例如预测下下个 token），也能观察到明显的效果提升。

效果有多显著？

研究团队在多个基准测试上进行了验证，结果令人印象深刻。以13B参数规模的模型为例，在代码生成任务（HumanEval和MBPP）中，采用多token预测训练的模型分别比基线方法多解决了12%和17%的问题。这一提升幅度在大型语言模型领域已属显著进步。尤其值得注意的是，在小型算法任务上，多token预测明显促进了归纳头部（inductive heads）和算法推理能力的发展——这表明模型并非依赖机械记忆，而是真正掌握了推理模式。

另一个亮点是推理速度。使用4 token预测训练的模型，在推理时速度可提升3倍（即使在大批次场景下）。原因不难理解：由于训练阶段模型被迫学习更长的上下文依赖关系，推理时的注意力计算变得更加高效，单次前向传播即可捕获更多信息。

总体而言，这是一种“零成本优化”——不增加训练时间，不增加推理开销，仅需修改训练代码中的目标函数。可以说，这是近年来LLM训练技巧中难得的“低垂果实”。

论文标题：Better & Faster Large Language Models via Multi-token Prediction
论文链接：https://arxiv.org/pdf/2404.19737

（本文图片位置保留原样，此处为原始图片占位：【LLM】通过多token预测实现更好更快的大模型）

来源：https://www.53ai.com/news/qianyanjishu/2000.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。