阿里达摩院RLVR新作突破推理同质化实现高效探索_AI热点日报

阿里达摩院RLVR新作突破推理同质化实现高效探索

类型：热点整理2026-05-14

在提升大语言模型推理能力的研究中，基于可验证奖励的强化学习已成为核心范式。其原理直观有效：模型针对同一问题生成多条推理路径，通过奖励信号强化正确思路，抑制错误方向。这类似于学生通过撰写多份解题草稿，从中甄别并学习最优解法。然而，该方法面临显著的效率瓶颈。一个直观的假设是：增加采样路径数量总能发现更

在提升大语言模型推理能力的研究中，基于可验证奖励的强化学习已成为核心范式。其原理直观有效：模型针对同一问题生成多条推理路径，通过奖励信号强化正确思路，抑制错误方向。这类似于学生通过撰写多份解题草稿，从中甄别并学习最优解法。

然而，该方法面临显著的效率瓶颈。一个直观的假设是：增加采样路径数量总能发现更优解。但现实情况往往受限于强化学习经典的“探索-利用”困境。模型需要在“利用”现有高概率、易得分的推理模板与“探索”新颖、潜在更优的解决方案之间取得平衡。当前主流采样机制常不自觉地偏向“利用”端，导致模型迅速收敛至少数看似稳妥的推理模式。尽管生成路径在措辞上存在差异，但其底层逻辑高度同质化。这种同质性使得额外采样难以提供有效的学习信号，制约了模型推理能力的进一步提升。

那么，如何引导模型进行更高效、更具价值的探索？关键在于有效利用模型自身的“不确定性”。

表 1: 高熵 Token 类别示例

熵，作为衡量模型生成下一个词时不确定性的指标，恰恰是探索潜力的关键指示器。实验观察表明，策略熵较高的位置通常对应着逻辑转折、步骤跳跃或模型自我纠错的关键节点（如表1所示）。这些节点正是决定推理走向的“决策十字路口”。

识别关键路口仅是第一步。真正的挑战在于如何在此处施加有效干预，引导模型走向实质不同的探索分支，而非陷入无效循环或错误歧途。

图 1：RLVR 中不同探索范式的对比（a）Sequence-level 的整体正则化方法通过全局平滑 token 分布来提高熵，但容易让模型生成冗长、重复或与解题无关的内容，形成 “高熵但低信息量” 的无效探索。（b）token-level 的概率扰动方法则只在局部高熵 token 上调整概率，往往只能带来连接词、同义词或表层表达的变化，也难以突破预训练模型已有的推理偏好来持续改变后续推理方向。

现有基于熵的探索方法主要面临两大挑战（如图1所示）：一是“奖励作弊”问题，模型为迎合熵奖励可能生成冗长、重复或无意义的文本，导致看似活跃实则低效的“灌水式”探索；二是难以突破“归纳偏置”，仅在词汇层面进行概率扰动无法撼动模型在预训练中形成的深层推理偏好，使得探索流于表面形式。

为突破这些限制，我们提出了 I²B-LPO 框架。其核心思想是：在识别出的高熵关键节点，不局限于简单扰动词表概率，而是向模型的潜在表示空间注入可控的语义分支。这相当于在推理的岔路口，为模型提供了几条内在逻辑迥异的“思维路标”。同时，我们引入了一种智能反馈机制，能够自动过滤冗长或无意义的探索路径，确保探索质量。该方法旨在有限的推理预算内，实现更高效的探索，从而进一步突破大模型在复杂推理任务上的性能上限。

论文标题：I²B-LPO: Latent Policy Optimization via Iterative Information Bottleneck论文链接：https://arxiv.org/pdf/2601.05870开源链接：https://github.com/denghuilin-cyber/IIB-LPO

01 工作概述

来源：https://www.163.com/dy/article/KST4J1PF0511AQHO.html

达摩院

延伸阅读

补充最近整理过的热点入口。