ICLR 2026研究揭示大模型短视缺陷 NextToBE方法改进长程预测

首页

热心网友

转载

2026-05-11

在大型语言模型的演进历程中，Next-Token Prediction（NTP，下一词元预测）扮演了奠基者的角色。这一训练目标与Transformer架构的完美结合，共同奠定了当今大语言模型（LLM）繁荣发展的基石。其核心逻辑简洁而高效：模型在每一步仅专注于预测序列中最可能出现的下一个词元（token）。这种“走一步看一步”的策略，却使模型深刻掌握了语言的统计规律与结构，并高效吸收了海量的世界知识，最终形成了一套稳定且可扩展的模型训练范式。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

可以说，NTP是当代LLM得以成功的核心引擎。

然而，随着模型应用向复杂推理、代码生成和长文本规划等深水区迈进，这一经典范式的局限性也逐渐显现。NTP本质上是一种“局部最优”的训练目标，与人类进行连贯、前瞻性思考的模式存在根本性差异。试想一个场景：一位棋手在比赛中，面对对手布下的精妙陷阱，却只思考“我下一步把棋子放在哪里最符合当前棋形？”——忽略全局态势，不预判对手意图，仅追求单步的“最优解”。

这是否与当前部分大模型的表现相似？它们在单步预测或简短问答中可能显得流畅自信，但一旦涉及需要多步逻辑推导、长代码生成或复杂任务规划的场景，其输出就可能出现逻辑漂移或前后矛盾。稍加追问，模型有时会转向过于保守或回避的回应。这种“局部流畅，全局失准”的现象，已成为制约大模型在需要长程一致性任务上表现的关键瓶颈。

问题的根源究竟何在？华东师范大学与复旦大学的研究团队在ICLR 2026上发表的一项研究提供了新颖的视角：大模型或许并非天生“短视”，其潜力可能被我们长期固化的训练方式所限制，被塑造成了“只关注下一步”的形态。

换言之，瓶颈可能不在于模型的能力天花板，而在于我们“教导”它的方法。研究者提出了一个富有洞见的概念：与其执着于优化“下一个词元”（Next-Token），不如尝试引导模型学习“下一段词元”（Next-ToBE，即 Next Token-Bag Exploitation）。

Next-ToBE研究框架示意图

Next-ToBE整体架构图

图 1：Next-ToBE 整体研究框架图解

这一命名本身就揭示了其核心理念。它不再强制模型仅聚焦于“下一个词”，而是引导其同步感知“即将到来（to be）”的序列内容。整个研究遵循清晰的逻辑链条：首先，实证检验大模型是否已内嵌潜在的前瞻能力；其次，分析这种能力为何在标准训练下被抑制；接着，探索一种轻量且优雅的方法将其“激活”；最终，验证这种改变能否切实提升模型在复杂推理任务上的性能。

这背后引出了一个更深层的议题：当模型不再将全部确定性押注于当前时刻，而是开始为未来的多种可能性分配合理的概率时，模型的置信度（confidence）与推理能力（reasoning capability）之间，能否达成一种更有利于高级智能涌现的新平衡？

大模型的当前预测已隐含未来信息

在实际的自回归生成过程中，大模型作为一个高维的概率系统，其每一步的输出并非一个孤立的确定值，而是一个覆盖整个词表空间的概率分布。研究发现，这一分布中早已隐含了模型对未来若干词元的“潜在预判”。

为了量化这种“前瞻性”，该论文提出了一个直观的评估指标：未来词元命中率（Future-tokens Hit Rate, FtHR）。具体而言，在生成过程的第t步，提取模型输出概率分布中排名最高的L个候选词元，检验它们是否能够覆盖未来时间窗口[t, t+k]内真实出现的词元。

未来词元命中率与生成质量关系图

图 2：左）当前步骤的输出概率分布已覆盖相当比例的未来真实 token；右）未来 token 在当前预测分布中的排名越高，其在后续步骤中被正确生成的概率也越大。

实验结果（图2）揭示了两个关键发现：首先，模型在当前步骤的预测分布中，确实已包含了未来将出现词元的显著信号；其次，一个未来词元在当前分布中的排名越靠前，它在后续自回归步骤中被准确生成的概率也越高。这证明，大模型的前瞻能力不仅客观存在、可被量化，而且与最终的文本生成质量直接正相关。

既然“看得更远”有助于“生成更准”，一个自然的疑问随之产生：为何不直接优化这一目标，让模型在每一步预测时，不仅关注当前词元，也对未来几步的序列形成更合理的概率布局？

症结恰恰在于NTP范式所依赖的one-hot目标分布。这种分布将所有概率质量强硬地集中于唯一的标准答案上，无形中压制了其他所有合理的潜在路径。这使得模型的概率表达变得僵化，难以形成连贯的长程规划，从而导向“短视”行为。当然，已有研究尝试突破这一限制，例如多词元预测（Multi-Token Prediction, MTP）方法通过引入多个独立的预测头来并行预测未来多个词元。但从本质上看，这类方法仍然是在并行地拟合多个独立的one-hot分布，并未从根本上改变那种刚性的、“单步最优”的训练逻辑。

Next-ToBE：激活大语言模型的前瞻潜能

Next-ToBE的解决方案则相当巧妙——它无需改变模型本身的架构，而是直接优化训练目标。它将传统NTP中指向单一正确答案的one-hot硬目标，替换为一个覆盖未来时间窗口的“软”目标分布。

其核心思想是：与其让模型将100%的注意力都押注在下一个词元上，不如引导其分出一部分“认知资源”去覆盖未来k个词元的可能性，让模型在当前步骤就开始感知后续多步内容的概率轮廓。这正是“下一段词元利用”的精髓——不是学习预测“下一个词元”，而是学习“下一段词元（token bag）的联合分布”。

Next-ToBE损失函数架构图

图 3：Next-ToBE 架构详解。损失函数由「下一 token」主损失项与「未来窗口 token」软目标辅助项构成；后者的权重由模型自身的前瞻偏好（α）和 token 间的时间-语义关联（β，通过随机游走算法建模）共同决定。

构建这个“未来词元软目标分布”遵循以下几个原则（如图3所示）：

首先，确保当前词元预测的主导地位。Next-ToBE并未抛弃NTP，而是将“预测下一个词元”作为损失函数的主干予以保留。在此基础上，引入未来窗口内的k-1个词元作为辅助监督信号，并通过一个超参数λ来平衡两者的权重。这样既保证了局部生成的准确性与稳定性，也让模型对更远期的内容保持合理的敏感性。

其次，对未来词元进行时空结构化的加权。未来k-1个词元的权重由两类信号共同决定：一是模型当前对该词元的预测概率（即模型自身的“先天”偏好）；二是未来词元与当前词元之间的时序距离和语义关联强度——距离越近、语义关联越强的词元，被赋予的权重越高（这部分通过交替随机游走算法进行建模）。最终，这两部分信息融合，形成每个未来词元的个性化权重。

最后，进行目标分布的归一化与损失计算。对未来k-1个词元的权重进行归一化，构成一个概率分布作为软目标。同时，对模型在这些未来词元上的原始预测概率也进行相应归一化，然后最小化两者之间的分布差异（例如使用KL散度或交叉熵损失）。

与需要增加额外预测头的MTP方法不同，Next-ToBE不修改任何模型架构，在推理阶段仍保持标准的单步自回归过程。如果说MTP是“为模型增添多个预测头”，那么Next-ToBE所做的，更像是训练模型的“战略眼光”：“走好当下这一步至关重要，但你的视野必须能洞察三步之后的棋局。”——这正如高手对弈，落子之际，全局走势已了然于胸。

前瞻能力如何转化为实际推理收益？

研究围绕三个核心问题展开了系统的实验验证：第一，Next-ToBE是否切实提升了模型对未来词元的感知能力？第二，这种增强的前瞻能力能否进一步转化为更准确的序列生成？第三，这种提升最终是否会体现在复杂的下游推理任务性能上？图4的实证数据对前两个问题给出了肯定的回答。

Next-ToBE微调效果对比图

图 4：经 Next-ToBE 微调后，（a）未来 token 命中率（FtHR）显著提升；（b）自回归生成未来 k 步的准确率同步上升；（c）对下一 token 的预测置信度略有下降（0.87 → 0.81），表明模型变得不那么“武断”。

最关键的是第三个问题。为了全面评估，研究者基于多个不同的基座模型，在数学推理、代码生成和常识推理三大类任务上，进行了共计36组严格的对比实验。结果显示，经过Next-ToBE微调后的模型，在35组实验中均取得了最优性能（见表1）。

多任务实验结果汇总表（部分）

数学与代码生成任务详细数据

表 1：在数学推理、代码生成与常识问答共计36组实验中，Next-ToBE方法在35组中表现最优。

此外，Next-ToBE在训练效率上也展现出明显优势，相较于MTP类方法，其显存占用和训练时间均有降低。作者还进一步验证了Next-ToBE在从头预训练（pre-training）场景下的有效性，这表明前瞻能力并非大模型预训练后偶然获得的副产品，而是可以通过训练目标主动“塑造”和增强的内在特性。

置信度与推理能力的深度权衡

从更宏观的视角看，Next-ToBE实现了对模型“确定性分配”策略的系统性调节。随着超参数λ增大，模型不再将全部概率质量集中于“下一个词元”，而是逐渐将一部分概率分配到更远的未来词元上。这一变化带来的直接观测结果是：模型对下一个词元的预测置信度呈现下降趋势，如图5（左）所示。

置信度与推理准确率关系曲线图

图 5：λ越大，对下一 token 的预测置信度越低（左）；但模型在复杂任务上的推理准确率随λ（及置信度）变化，呈现先升后降的倒U型曲线（中、右）。

然而，最有趣的现象随之出现：随着模型对下一个词元的预测置信度适度下降，其在复杂任务上的推理准确率反而先上升，达到一个峰值后再缓慢下降，呈现出一个清晰的倒U型曲线（图5中、右）。换言之，模型在一种“适度不确定”或“适度开放”的状态下，反而表现出了最强的综合推理能力。

相比之下，传统的NTP可以看作是λ=0的极端情况，即将全部概率质量压缩于当前一步，追求极致的局部确定性。这种“短视的自信”并未带来整体推理性能的最优解，反而限制了对长程依赖和潜在最优路径的探索能力。

由此可见，有效的长程推理与规划，往往源于对“绝对确定”的适度克制。与其追求生成路径上每一步都极致笃定，不如为未来的多种合理可能性保留一定的探索空间。Next-ToBE最精妙之处，恰恰在于用当下一点点确定性的让渡，换取了更长远、更全局的生成收益与推理稳健性。

总结与展望

自大语言模型兴起以来，有一个底层范式很少被深入审视或挑战：我们总是默认要求模型在生成的每一步，都输出一个最确定的答案。我们潜意识里将“高置信度”与“高智能”划上了等号。

而事实或许更为辩证。模型从来不是只顾当下——即便在one-hot硬目标的“约束”下，其内部的概率分布依然暗藏着对更远未来的感知。Next-ToBE所做的，本质上就是松绑这副约束，让大模型与生俱来的那份前瞻性与规划潜能得以释放和增强。

这或许也能为我们带来更广泛的启示：真正的智能，或许并非体现在每一步都追求绝对正确的机械执行，而是那份在概率流动与开放探索中，与不确定性共舞并做出长远规划的系统性觉知。正是这份面向未来的觉知，引领模型（乃至智能体）抵达更可靠、更一致的必然结果。

来源:https://www.51cto.com/article/842819.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：人工智能成本上涨应对指南 LLM 迁移与替代策略下一篇：MJ动漫视频粒子消散特效制作教程