游乐游手机版
首页/科技数码/文章详情

陈丹琦团队创新RLMT:基于奖励思维的模型强化学习方法

时间:2025-12-10 12:01
在日常生活中,人类解决写邮件、拟提纲、制定膳食计划等开放式任务时,总会先在脑中梳理思路,再着手完成任务。这种“深度推理”能力,被诺贝尔经济学奖得主、心理学家 Daniel Kahneman 称为

人类处理日常事务时,往往先静心思索再采取行动。撰写邮件时需要构思整体架构,制定餐饮计划时要考虑营养均衡,这些日常决策背后都蕴含着复杂的思考过程。心理学家丹尼尔·卡尼曼将这种深度思考能力称为"系统2思维",它体现了人类智能的本质特征。

现有人工智能系统在可验证领域如数学运算、编程解题等方面取得进展,借助规则化奖励机制提升了推理能力(RLVR强化学习)。但在面对开放性问题时,系统的泛化能力仍有局限。普林斯顿大学陈丹琦团队的最新研究实现了突破,成功将可验证领域的推理能力迁移至通用对话场景。

\

研究团队创新性地提出"基于模型奖励思维的强化学习"(RLMT)框架。该框架要求语言模型在生成最终回答前,必须先输出详细的思考过程,然后通过偏好奖励模型对整套"推理+回答"进行优化。实验数据显示,经过RLMT训练的8B参数量模型在对话和创意写作等任务上超越了GPT-4o,与Claude-3.7-Sonnet水平相当。更令人惊讶的是,仅用7000个提示训练的Llama-3.1-8B基础模型,就超越了经过2500多万样本复杂训练的指令优化版本。

\

RLMT框架:融合两大训练范式

现有语言模型训练面临两个主要挑战:基于人类反馈的强化学习(RLHF)虽能对答案进行整体评分,但缺乏对思考过程的引导;可验证奖励强化学习(RLVR)在特定领域效果显著,却难以推广到开放式问题。RLMT框架创新性地结合了两者的优势。

\

该框架有三个关键设计:训练算法采用GRPO效果最佳,但DPO/PPO也有所提升;选用Skywork-v1-Llama-3.1-8B-v0.2作为奖励模型;从WildChat平台筛选7.5k条真实对话构建提示库。值得注意的是,RLMT支持两种训练模式:监督微调热启动和零训练直接应用,后者仅需添加指令前缀即可引导模型思考。

\

实验结果:小模型的逆袭

在Llama-3.1-8B和Qwen-2.5-7B两个模型系列上的40次训练表明,RLMT模型在所有测试任务中表现突出。特别在聊天基准测试中,平均领先基准模型3-8分。更令人瞩目的是,8B参数的模型在WildBench测试中获得50.4分,超越70B级别的大模型和GPT-4o。

\

零训练模式同样取得显著效果:Llama-3.1-8B-RLMT-Zero模型在聊天任务上获得15.6分,比经过复杂训练的指令版本高出5.5分。消融实验证实,提示质量、奖励模型强度和思考过程三者缺一不可,即便奖励模型较弱,RLMT仍能保持优势。

\

思考模式的进化

RLMT不仅提升性能,更改变了模型的思考方式。对比显示,传统模型输出像程序执行般线性推进,而RLMT模型展现出更接近人类的思维特征:先梳理约束条件,分组整合想法,最后优化细节。训练过程中,模型的思考长度持续增加,从200token扩展到600以上。

\

这项研究打破了"数据规模决定性能"的固有认知,证明激发模型思考能力同样关键。虽然还存在优化空间,但RLMT框架为语言模型的理解力培养开辟了新路径。当AI不仅能回答问题,还会像人类一样思考时,我们离真正的通用人工智能又迈进了一步。

来源:https://36kr.com/p/3487655191780232
上一篇iPhone 17首周销量引发市场担忧 下一篇苹果放弃聊天机器人,却悄悄研发AI对话助手
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
LiblibAI云端WebUI降低AI绘画部署门槛
科技数码 · 2026-07-02

LiblibAI云端WebUI降低AI绘画部署门槛

LiblibAI在线WebUI的核心优势在于——只需通过浏览器即可流畅运行Stable Diffusion,无需自行搭建本地环境。云端直接处理运算,模型即选即试,大幅降低了AI绘画的创作门槛。对于轻量创作和模型快速测试来说,体验相当顺畅,但用户仍需重视数据隐私保护和版权合规等问题。 过去使用Stab

微软因用户不安叫停Edge浏览器AI历史搜索功能
科技数码 · 2026-07-02

微软因用户不安叫停Edge浏览器AI历史搜索功能

微软紧急暂停Edge浏览器AI历史搜索功能,该功能因被用户吐槽“令人不安”而暂缓部署。尽管微软强调所有AI处理在设备端完成且数据不上传云端,但用户仍不信任。此举与WindowsK2计划减少功能堆砌的理念一致。

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场
科技数码 · 2026-07-02

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场

【CNMO科技消息】近日,红魔游戏平板5 Pro正式发布。这款平板从定位上就明确瞄准“极致游戏”体验,外观方面带来了一个重磅亮点——首次引入RGB水冷散热系统,背部那条可视化的水路通道,配合纯平透明背板设计,核心配置信息一览无余,科技感十足。 图源网络 屏幕方面同样表现突出。一块9 06英寸OLED

杭州全国首所机器人学校首批30台机器人入学
科技数码 · 2026-07-02

杭州全国首所机器人学校首批30台机器人入学

30台机器人整齐列队,有的刚从生产线卸下,机械零件还带着崭新的“工业气息”;有的已搭载运动控制模块,能稳健地小跑、跳跃几下。它们来自不同制造工厂,外形与功能各有千秋,但此刻都拥有了同一个身份——杭州机器人学校的第一批入学新生。 6月30日,杭州经信正式发布:由浙江大学机器人研究院、浙江省质量科学研究

美国计划发射航天器托举天文卫星
科技数码 · 2026-07-02

美国计划发射航天器托举天文卫星

就在最近,NASA公布了一项非常果断的干预计划——他们定于6月30日实施一次“卫星维修任务”,派遣一台名为“连接”号的机器人服务卫星,为一颗超期服役的天文卫星延长运行寿命。这颗卫星是“尼尔·格雷尔斯·斯威夫特天文台”,其轨道高度正在不断衰减,如果不进行干预,今年年底前很可能会坠入地球大气层并烧毁。