陈丹琦团队创新RLMT：基于奖励思维的模型强化学习方法

时间：2025-12-10 12:01

在日常生活中，人类解决写邮件、拟提纲、制定膳食计划等开放式任务时，总会先在脑中梳理思路，再着手完成任务。这种“深度推理”能力，被诺贝尔经济学奖得主、心理学家 Daniel Kahneman 称为

人类处理日常事务时，往往先静心思索再采取行动。撰写邮件时需要构思整体架构，制定餐饮计划时要考虑营养均衡，这些日常决策背后都蕴含着复杂的思考过程。心理学家丹尼尔·卡尼曼将这种深度思考能力称为"系统2思维"，它体现了人类智能的本质特征。

现有人工智能系统在可验证领域如数学运算、编程解题等方面取得进展，借助规则化奖励机制提升了推理能力（RLVR强化学习）。但在面对开放性问题时，系统的泛化能力仍有局限。普林斯顿大学陈丹琦团队的最新研究实现了突破，成功将可验证领域的推理能力迁移至通用对话场景。

研究团队创新性地提出"基于模型奖励思维的强化学习"(RLMT)框架。该框架要求语言模型在生成最终回答前，必须先输出详细的思考过程，然后通过偏好奖励模型对整套"推理+回答"进行优化。实验数据显示，经过RLMT训练的8B参数量模型在对话和创意写作等任务上超越了GPT-4o，与Claude-3.7-Sonnet水平相当。更令人惊讶的是，仅用7000个提示训练的Llama-3.1-8B基础模型，就超越了经过2500多万样本复杂训练的指令优化版本。

RLMT框架：融合两大训练范式

现有语言模型训练面临两个主要挑战：基于人类反馈的强化学习(RLHF)虽能对答案进行整体评分，但缺乏对思考过程的引导；可验证奖励强化学习(RLVR)在特定领域效果显著，却难以推广到开放式问题。RLMT框架创新性地结合了两者的优势。

该框架有三个关键设计：训练算法采用GRPO效果最佳，但DPO/PPO也有所提升；选用Skywork-v1-Llama-3.1-8B-v0.2作为奖励模型；从WildChat平台筛选7.5k条真实对话构建提示库。值得注意的是，RLMT支持两种训练模式：监督微调热启动和零训练直接应用，后者仅需添加指令前缀即可引导模型思考。

实验结果：小模型的逆袭

在Llama-3.1-8B和Qwen-2.5-7B两个模型系列上的40次训练表明，RLMT模型在所有测试任务中表现突出。特别在聊天基准测试中，平均领先基准模型3-8分。更令人瞩目的是，8B参数的模型在WildBench测试中获得50.4分，超越70B级别的大模型和GPT-4o。

零训练模式同样取得显著效果：Llama-3.1-8B-RLMT-Zero模型在聊天任务上获得15.6分，比经过复杂训练的指令版本高出5.5分。消融实验证实，提示质量、奖励模型强度和思考过程三者缺一不可，即便奖励模型较弱，RLMT仍能保持优势。

思考模式的进化

RLMT不仅提升性能，更改变了模型的思考方式。对比显示，传统模型输出像程序执行般线性推进，而RLMT模型展现出更接近人类的思维特征：先梳理约束条件，分组整合想法，最后优化细节。训练过程中，模型的思考长度持续增加，从200token扩展到600以上。

这项研究打破了"数据规模决定性能"的固有认知，证明激发模型思考能力同样关键。虽然还存在优化空间，但RLMT框架为语言模型的理解力培养开辟了新路径。当AI不仅能回答问题，还会像人类一样思考时，我们离真正的通用人工智能又迈进了一步。

来源：https://36kr.com/p/3487655191780232

上一篇iPhone 17首周销量引发市场担忧 下一篇苹果放弃聊天机器人，却悄悄研发AI对话助手

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-02

LiblibAI云端WebUI降低AI绘画部署门槛

LiblibAI在线WebUI的核心优势在于——只需通过浏览器即可流畅运行Stable Diffusion，无需自行搭建本地环境。云端直接处理运算，模型即选即试，大幅降低了AI绘画的创作门槛。对于轻量创作和模型快速测试来说，体验相当顺畅，但用户仍需重视数据隐私保护和版权合规等问题。过去使用Stab

科技数码 · 2026-07-02

微软因用户不安叫停Edge浏览器AI历史搜索功能

微软紧急暂停Edge浏览器AI历史搜索功能，该功能因被用户吐槽“令人不安”而暂缓部署。尽管微软强调所有AI处理在设备端完成且数据不上传云端，但用户仍不信任。此举与WindowsK2计划减少功能堆砌的理念一致。

科技数码 · 2026-07-02

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场

【CNMO科技消息】近日，红魔游戏平板5 Pro正式发布。这款平板从定位上就明确瞄准“极致游戏”体验，外观方面带来了一个重磅亮点——首次引入RGB水冷散热系统，背部那条可视化的水路通道，配合纯平透明背板设计，核心配置信息一览无余，科技感十足。图源网络屏幕方面同样表现突出。一块9 06英寸OLED

科技数码 · 2026-07-02

杭州全国首所机器人学校首批30台机器人入学

30台机器人整齐列队，有的刚从生产线卸下，机械零件还带着崭新的“工业气息”；有的已搭载运动控制模块，能稳健地小跑、跳跃几下。它们来自不同制造工厂，外形与功能各有千秋，但此刻都拥有了同一个身份——杭州机器人学校的第一批入学新生。 6月30日，杭州经信正式发布：由浙江大学机器人研究院、浙江省质量科学研究

科技数码 · 2026-07-02

美国计划发射航天器托举天文卫星

就在最近，NASA公布了一项非常果断的干预计划——他们定于6月30日实施一次“卫星维修任务”，派遣一台名为“连接”号的机器人服务卫星，为一颗超期服役的天文卫星延长运行寿命。这颗卫星是“尼尔·格雷尔斯·斯威夫特天文台”，其轨道高度正在不断衰减，如果不进行干预，今年年底前很可能会坠入地球大气层并烧毁。