首页 游戏 软件 资讯 排行榜 专题
首页
AI
ICLR 2026研究揭示大模型短视缺陷 NextToBE方法改进长程预测

ICLR 2026研究揭示大模型短视缺陷 NextToBE方法改进长程预测

热心网友
81
转载
2026-05-11

在大型语言模型的演进历程中,Next-Token Prediction(NTP,下一词元预测)扮演了奠基者的角色。这一训练目标与Transformer架构的完美结合,共同奠定了当今大语言模型(LLM)繁荣发展的基石。其核心逻辑简洁而高效:模型在每一步仅专注于预测序列中最可能出现的下一个词元(token)。这种“走一步看一步”的策略,却使模型深刻掌握了语言的统计规律与结构,并高效吸收了海量的世界知识,最终形成了一套稳定且可扩展的模型训练范式。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

可以说,NTP是当代LLM得以成功的核心引擎。

然而,随着模型应用向复杂推理、代码生成和长文本规划等深水区迈进,这一经典范式的局限性也逐渐显现。NTP本质上是一种“局部最优”的训练目标,与人类进行连贯、前瞻性思考的模式存在根本性差异。试想一个场景:一位棋手在比赛中,面对对手布下的精妙陷阱,却只思考“我下一步把棋子放在哪里最符合当前棋形?”——忽略全局态势,不预判对手意图,仅追求单步的“最优解”。

这是否与当前部分大模型的表现相似?它们在单步预测或简短问答中可能显得流畅自信,但一旦涉及需要多步逻辑推导、长代码生成或复杂任务规划的场景,其输出就可能出现逻辑漂移或前后矛盾。稍加追问,模型有时会转向过于保守或回避的回应。这种“局部流畅,全局失准”的现象,已成为制约大模型在需要长程一致性任务上表现的关键瓶颈。

问题的根源究竟何在?华东师范大学与复旦大学的研究团队在ICLR 2026上发表的一项研究提供了新颖的视角:大模型或许并非天生“短视”,其潜力可能被我们长期固化的训练方式所限制,被塑造成了“只关注下一步”的形态。

换言之,瓶颈可能不在于模型的能力天花板,而在于我们“教导”它的方法。研究者提出了一个富有洞见的概念:与其执着于优化“下一个词元”(Next-Token),不如尝试引导模型学习“下一段词元”(Next-ToBE,即 Next Token-Bag Exploitation)。

Next-ToBE研究框架示意图

Next-ToBE整体架构图

图 1:Next-ToBE 整体研究框架图解

这一命名本身就揭示了其核心理念。它不再强制模型仅聚焦于“下一个词”,而是引导其同步感知“即将到来(to be)”的序列内容。整个研究遵循清晰的逻辑链条:首先,实证检验大模型是否已内嵌潜在的前瞻能力;其次,分析这种能力为何在标准训练下被抑制;接着,探索一种轻量且优雅的方法将其“激活”;最终,验证这种改变能否切实提升模型在复杂推理任务上的性能。

这背后引出了一个更深层的议题:当模型不再将全部确定性押注于当前时刻,而是开始为未来的多种可能性分配合理的概率时,模型的置信度(confidence)与推理能力(reasoning capability)之间,能否达成一种更有利于高级智能涌现的新平衡?

大模型的当前预测已隐含未来信息

在实际的自回归生成过程中,大模型作为一个高维的概率系统,其每一步的输出并非一个孤立的确定值,而是一个覆盖整个词表空间的概率分布。研究发现,这一分布中早已隐含了模型对未来若干词元的“潜在预判”。

为了量化这种“前瞻性”,该论文提出了一个直观的评估指标:未来词元命中率(Future-tokens Hit Rate, FtHR)。具体而言,在生成过程的第t步,提取模型输出概率分布中排名最高的L个候选词元,检验它们是否能够覆盖未来时间窗口[t, t+k]内真实出现的词元。

未来词元命中率与生成质量关系图

图 2:左)当前步骤的输出概率分布已覆盖相当比例的未来真实 token;右)未来 token 在当前预测分布中的排名越高,其在后续步骤中被正确生成的概率也越大。

实验结果(图2)揭示了两个关键发现:首先,模型在当前步骤的预测分布中,确实已包含了未来将出现词元的显著信号;其次,一个未来词元在当前分布中的排名越靠前,它在后续自回归步骤中被准确生成的概率也越高。这证明,大模型的前瞻能力不仅客观存在、可被量化,而且与最终的文本生成质量直接正相关。

既然“看得更远”有助于“生成更准”,一个自然的疑问随之产生:为何不直接优化这一目标,让模型在每一步预测时,不仅关注当前词元,也对未来几步的序列形成更合理的概率布局?

症结恰恰在于NTP范式所依赖的one-hot目标分布。这种分布将所有概率质量强硬地集中于唯一的标准答案上,无形中压制了其他所有合理的潜在路径。这使得模型的概率表达变得僵化,难以形成连贯的长程规划,从而导向“短视”行为。当然,已有研究尝试突破这一限制,例如多词元预测(Multi-Token Prediction, MTP)方法通过引入多个独立的预测头来并行预测未来多个词元。但从本质上看,这类方法仍然是在并行地拟合多个独立的one-hot分布,并未从根本上改变那种刚性的、“单步最优”的训练逻辑。

Next-ToBE:激活大语言模型的前瞻潜能

Next-ToBE的解决方案则相当巧妙——它无需改变模型本身的架构,而是直接优化训练目标。它将传统NTP中指向单一正确答案的one-hot硬目标,替换为一个覆盖未来时间窗口的“软”目标分布。

其核心思想是:与其让模型将100%的注意力都押注在下一个词元上,不如引导其分出一部分“认知资源”去覆盖未来k个词元的可能性,让模型在当前步骤就开始感知后续多步内容的概率轮廓。这正是“下一段词元利用”的精髓——不是学习预测“下一个词元”,而是学习“下一段词元(token bag)的联合分布”。

Next-ToBE损失函数架构图

图 3:Next-ToBE 架构详解。损失函数由「下一 token」主损失项与「未来窗口 token」软目标辅助项构成;后者的权重由模型自身的前瞻偏好(α)和 token 间的时间-语义关联(β,通过随机游走算法建模)共同决定。

构建这个“未来词元软目标分布”遵循以下几个原则(如图3所示):

首先,确保当前词元预测的主导地位。Next-ToBE并未抛弃NTP,而是将“预测下一个词元”作为损失函数的主干予以保留。在此基础上,引入未来窗口内的k-1个词元作为辅助监督信号,并通过一个超参数λ来平衡两者的权重。这样既保证了局部生成的准确性与稳定性,也让模型对更远期的内容保持合理的敏感性。

其次,对未来词元进行时空结构化的加权。未来k-1个词元的权重由两类信号共同决定:一是模型当前对该词元的预测概率(即模型自身的“先天”偏好);二是未来词元与当前词元之间的时序距离和语义关联强度——距离越近、语义关联越强的词元,被赋予的权重越高(这部分通过交替随机游走算法进行建模)。最终,这两部分信息融合,形成每个未来词元的个性化权重。

最后,进行目标分布的归一化与损失计算。对未来k-1个词元的权重进行归一化,构成一个概率分布作为软目标。同时,对模型在这些未来词元上的原始预测概率也进行相应归一化,然后最小化两者之间的分布差异(例如使用KL散度或交叉熵损失)。

与需要增加额外预测头的MTP方法不同,Next-ToBE不修改任何模型架构,在推理阶段仍保持标准的单步自回归过程。如果说MTP是“为模型增添多个预测头”,那么Next-ToBE所做的,更像是训练模型的“战略眼光”:“走好当下这一步至关重要,但你的视野必须能洞察三步之后的棋局。”——这正如高手对弈,落子之际,全局走势已了然于胸。

前瞻能力如何转化为实际推理收益?

研究围绕三个核心问题展开了系统的实验验证:第一,Next-ToBE是否切实提升了模型对未来词元的感知能力?第二,这种增强的前瞻能力能否进一步转化为更准确的序列生成?第三,这种提升最终是否会体现在复杂的下游推理任务性能上?图4的实证数据对前两个问题给出了肯定的回答。

Next-ToBE微调效果对比图

图 4:经 Next-ToBE 微调后,(a)未来 token 命中率(FtHR)显著提升;(b)自回归生成未来 k 步的准确率同步上升;(c)对下一 token 的预测置信度略有下降(0.87 → 0.81),表明模型变得不那么“武断”。

最关键的是第三个问题。为了全面评估,研究者基于多个不同的基座模型,在数学推理、代码生成和常识推理三大类任务上,进行了共计36组严格的对比实验。结果显示,经过Next-ToBE微调后的模型,在35组实验中均取得了最优性能(见表1)。

多任务实验结果汇总表(部分)

数学与代码生成任务详细数据

表 1:在数学推理、代码生成与常识问答共计36组实验中,Next-ToBE方法在35组中表现最优。

此外,Next-ToBE在训练效率上也展现出明显优势,相较于MTP类方法,其显存占用和训练时间均有降低。作者还进一步验证了Next-ToBE在从头预训练(pre-training)场景下的有效性,这表明前瞻能力并非大模型预训练后偶然获得的副产品,而是可以通过训练目标主动“塑造”和增强的内在特性。

置信度与推理能力的深度权衡

从更宏观的视角看,Next-ToBE实现了对模型“确定性分配”策略的系统性调节。随着超参数λ增大,模型不再将全部概率质量集中于“下一个词元”,而是逐渐将一部分概率分配到更远的未来词元上。这一变化带来的直接观测结果是:模型对下一个词元的预测置信度呈现下降趋势,如图5(左)所示。

置信度与推理准确率关系曲线图

图 5:λ越大,对下一 token 的预测置信度越低(左);但模型在复杂任务上的推理准确率随λ(及置信度)变化,呈现先升后降的倒U型曲线(中、右)。

然而,最有趣的现象随之出现:随着模型对下一个词元的预测置信度适度下降,其在复杂任务上的推理准确率反而先上升,达到一个峰值后再缓慢下降,呈现出一个清晰的倒U型曲线(图5中、右)。换言之,模型在一种“适度不确定”或“适度开放”的状态下,反而表现出了最强的综合推理能力。

相比之下,传统的NTP可以看作是λ=0的极端情况,即将全部概率质量压缩于当前一步,追求极致的局部确定性。这种“短视的自信”并未带来整体推理性能的最优解,反而限制了对长程依赖和潜在最优路径的探索能力。

由此可见,有效的长程推理与规划,往往源于对“绝对确定”的适度克制。与其追求生成路径上每一步都极致笃定,不如为未来的多种合理可能性保留一定的探索空间。Next-ToBE最精妙之处,恰恰在于用当下一点点确定性的让渡,换取了更长远、更全局的生成收益与推理稳健性。

总结与展望

自大语言模型兴起以来,有一个底层范式很少被深入审视或挑战:我们总是默认要求模型在生成的每一步,都输出一个最确定的答案。我们潜意识里将“高置信度”与“高智能”划上了等号。

而事实或许更为辩证。模型从来不是只顾当下——即便在one-hot硬目标的“约束”下,其内部的概率分布依然暗藏着对更远未来的感知。Next-ToBE所做的,本质上就是松绑这副约束,让大模型与生俱来的那份前瞻性与规划潜能得以释放和增强。

这或许也能为我们带来更广泛的启示:真正的智能,或许并非体现在每一步都追求绝对正确的机械执行,而是那份在概率流动与开放探索中,与不确定性共舞并做出长远规划的系统性觉知。正是这份面向未来的觉知,引领模型(乃至智能体)抵达更可靠、更一致的必然结果。

来源:https://www.51cto.com/article/842819.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

ICLR 2026研究揭示大模型短视缺陷 NextToBE方法改进长程预测
AI
ICLR 2026研究揭示大模型短视缺陷 NextToBE方法改进长程预测

研究发现大语言模型因Next-Token预测训练而缺乏长程推理能力。为此,研究者提出Next-ToBE方法,通过修改训练目标,引导模型在预测时同时感知未来词元分布,而非仅聚焦下一词。实验表明,该方法能显著提升模型在数学、代码等复杂任务上的表现,并激发其潜在的前瞻性。

热心网友
05.11
浙江大学与爱丁堡大学提出NCB新指标评估大模型知识理解深度
AI
浙江大学与爱丁堡大学提出NCB新指标评估大模型知识理解深度

大模型在无干扰测试中表现稳定,但面对错误信息或同伴压力时准确率可能显著下降。传统自一致性指标无法有效评估模型信念的稳健性。为此,研究提出“邻域一致性信念”新指标,通过测试模型在相关知识邻域的表现来评估其知识结构的稳固程度。实验表明,高NCB模型在干扰下表现更稳定,

热心网友
05.11
企业如何构建AI工厂实现大模型高效落地与规模化应用
AI
企业如何构建AI工厂实现大模型高效落地与规模化应用

AI工厂正从实验转向规模化部署,成为企业创造智能与收益的核心引擎。它集成硬件、能源、数据与应用层,以应对实际业务需求。企业需依据数据、人才、成本及基础设施评估准备度,选择本地、云或混合部署模式。有效的治理与可持续规划则是规避风险、确保投资回报的关键。

热心网友
05.11
群晖Docker部署AI大模型教程NAS用户指南
AI
群晖Docker部署AI大模型教程NAS用户指南

在群晖NAS上部署大语言模型常因镜像拉取失败、资源不足、端口占用或环境变量未设置而受阻。针对不同场景,提供了三种部署方案:通过ContainerManager图形界面部署Ollama与Llama2,适合新手快速体验;通过SSH命令行部署DeepSeek-R1,便于精细控制硬件资源;使用离线镜像包部署集成OpenWebUI与Llama2的一体化方案,适用于无外

热心网友
05.11
大模型安全面临三大现实威胁记忆劫持与智能体失控风险解析
AI
大模型安全面临三大现实威胁记忆劫持与智能体失控风险解析

大模型面临记忆劫持、对抗性攻击及AI智能体行为不确定性三大现实威胁。攻击者可利用图片等载体植入虚假信息,暴露模型防御缺口;小模型在特定任务中表现可能超越大模型。随着AI智能体广泛部署,其权限模糊等问题推动安全治理进入产业化落地新阶段。

热心网友
05.11

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

OKX提币审核中怎么办 常见原因与等待期间应对指南
web3.0
OKX提币审核中怎么办 常见原因与等待期间应对指南

当在OKX欧易平台提币遇到“审核中”状态时,通常意味着交易触发了平台的安全风控流程。常见原因包括账户安全验证、大额提现、新设备登录或涉及高风险资产。等待期间,用户应保持耐心,检查账户信息是否完整,并可通过官方渠道查询进度。理解这一机制有助于更顺畅地进行资产管理。

热心网友
05.11
小米澎湃OS 3发布2026母亲节专属水印与门店花卉活动
科技数码
小米澎湃OS 3发布2026母亲节专属水印与门店花卉活动

小米澎湃OS3系统已全量上线母亲节限定水印,采用手绘康乃馨花束设计,用户需将相册编辑应用升级至2 3 0以上版本方可在5月13日前使用。同时,小米汽车于5月9日至10日推出门店活动,到店扫码可领取鲜花,每家门店至少备有30支。

热心网友
05.11
刺客信条黑旗记忆重置地图新增岛屿与探索内容
游戏资讯
刺客信条黑旗记忆重置地图新增岛屿与探索内容

《刺客信条:黑旗重置版》扩展了探索区域,新增岛屿与城市。玩家可招募三名拥有特殊能力的新船员,并体验更丰富的角色剧情。游戏以罗盘系统取代小地图,优化探索沉浸感,支持按键自定义,并计划加入经典操作模式。将于7月10日登陆PS5、XSX S及PC平台。

热心网友
05.11
欧易OKX新手入门指南:从官网注册到交易下载完整教程顺序
web3.0
欧易OKX新手入门指南:从官网注册到交易下载完整教程顺序

面对海量的欧易平台教程,新手常感无从下手。本文提供一份清晰的入门顺序指南,建议用户首先熟悉官网结构与安全公告,随后完成账户注册与基础安全设置。接着下载官方App并掌握基本操作,最后从现货交易开始实践,逐步学习更复杂的交易类型。遵循此路径可系统性地建立认知,安全高效地开启数字资产交易之旅。

热心网友
05.11
比亚迪闪充技术如何平衡充电速度与用户实际需求
科技数码
比亚迪闪充技术如何平衡充电速度与用户实际需求

比亚迪“闪充”技术实测充电速度领先,引发安全性与实用性讨论。行业数据显示日常仍以慢充为主,快充多用于应急。虽大功率快充可能影响电池寿命,但适度放宽充电时间或更利于技术落地。其核心价值在于提供灵活补能选择,服务于更自由从容的用车体验。

热心网友
05.11