大模型推理能力提升：突破熵崩塌，精确探索技术实现成绩飙升

首页/科技数码/文章详情

大模型推理能力提升：突破熵崩塌，精确探索技术实现成绩飙升

时间：2025-10-13 21:21

大语言模型在RLVR训练中面临的“熵困境”，有解了！ 2024年以来，以OpenAI o1、DeepSeek-R1、Kimi K1、Qwen3等为代表的大模型，在数学、代码和科学推理任务上取得了显

大语言模型在RLVR训练中面临的“熵困境”，有解了！

2024年以来，以OpenAI o1、DeepSeek-R1、Kimi K1、Qwen3等为代表的大模型，在数学、代码和科学推理任务上取得了显著突破。这些进展很大程度上得益于一种名为RLVR（基于可验证奖励的强化学习）的方法。

该方法通过数学验证、单元测试等可自动判断对错的方式提供训练信号，替代了传统依赖人类评判的流程，使模型能够进行大规模、高效率的自我改进。

然而，RLVR在实践中始终面临“探索机制极易失衡”这一关键瓶颈——要么探索受限，陷入熵崩塌；要么探索失控，引发熵爆炸。

为突破这一瓶颈，来自上海人工智能实验室和复旦大学等机构的研究团队提出选择性熵正则化方法（SIREN），通过划定探索范围、聚焦关键决策、稳定训练过程的三重机制，实现了对探索行为的精准调控。

实验证明，该方法不仅在多项数学推理基准上取得了显著性能提升，更重要的是，它让模型的探索过程变得更加高效与可控。

下面详细来看——

核心困境：探索的“两难陷阱”

在RLVR训练中，研究人员期望模型能够持续探索多样化的解题路径，以避免过早陷入局部最优。

一个自然的想法是：引入熵正则化（entropy regularization）。

这是强化学习中鼓励探索的经典手段。其核心思想很简单：在优化目标中加入一项，鼓励模型在每一步生成时保持一定的“不确定性”，不要过早把概率全压在少数几个词上。

具体来说，就是计算每一步输出分布的熵（衡量“混乱程度”），再把整条推理轨迹的平均熵加到训练目标里，用一个系数

来源：https://36kr.com/p/3507408957299848

上一篇转转转型背后：二手江湖的暗流与机遇 下一篇中文屋之父逝世，享年93岁，毕生挑战AI意识论

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-03

泰坦军团战魂KG277VPLUS双模显示器27英寸4K165Hz/520Hz仅1888元

泰坦军团“战魂KG277VPLUS”27英寸显示器发售，支持4K165Hz与FHD520Hz双模切换，定价1888元。采用FastIPS面板，97%DCI-P3色域，配备升降支架及双HDMI2 1和双DP1 4接口。

科技数码 · 2026-07-03

苹果调价影响消费需求 2026年全球笔电出货量或降13.6%

迈入2026年，DRAM与NAND闪存的供应持续紧张及价格不断攀升，正逐步传导至终端消费市场。可以预见，下半年市场环境将更加严峻。上半年多家PC厂商已陆续上调产品定价，最终连苹果也不得不跟进，宣布提升iPad、Mac及家居设备的价格，以应对存储成本的快速上涨。 TrendForce分析指出，苹果全面