首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
陈丹琦团队创新RLMT:基于奖励思维的模型强化学习方法

陈丹琦团队创新RLMT:基于奖励思维的模型强化学习方法

热心网友
38
转载
2025-12-10

人类处理日常事务时,往往先静心思索再采取行动。撰写邮件时需要构思整体架构,制定餐饮计划时要考虑营养均衡,这些日常决策背后都蕴含着复杂的思考过程。心理学家丹尼尔·卡尼曼将这种深度思考能力称为"系统2思维",它体现了人类智能的本质特征。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

现有人工智能系统在可验证领域如数学运算、编程解题等方面取得进展,借助规则化奖励机制提升了推理能力(RLVR强化学习)。但在面对开放性问题时,系统的泛化能力仍有局限。普林斯顿大学陈丹琦团队的最新研究实现了突破,成功将可验证领域的推理能力迁移至通用对话场景。

\

研究团队创新性地提出"基于模型奖励思维的强化学习"(RLMT)框架。该框架要求语言模型在生成最终回答前,必须先输出详细的思考过程,然后通过偏好奖励模型对整套"推理+回答"进行优化。实验数据显示,经过RLMT训练的8B参数量模型在对话和创意写作等任务上超越了GPT-4o,与Claude-3.7-Sonnet水平相当。更令人惊讶的是,仅用7000个提示训练的Llama-3.1-8B基础模型,就超越了经过2500多万样本复杂训练的指令优化版本。

\

RLMT框架:融合两大训练范式

现有语言模型训练面临两个主要挑战:基于人类反馈的强化学习(RLHF)虽能对答案进行整体评分,但缺乏对思考过程的引导;可验证奖励强化学习(RLVR)在特定领域效果显著,却难以推广到开放式问题。RLMT框架创新性地结合了两者的优势。

\

该框架有三个关键设计:训练算法采用GRPO效果最佳,但DPO/PPO也有所提升;选用Skywork-v1-Llama-3.1-8B-v0.2作为奖励模型;从WildChat平台筛选7.5k条真实对话构建提示库。值得注意的是,RLMT支持两种训练模式:监督微调热启动和零训练直接应用,后者仅需添加指令前缀即可引导模型思考。

\

实验结果:小模型的逆袭

在Llama-3.1-8B和Qwen-2.5-7B两个模型系列上的40次训练表明,RLMT模型在所有测试任务中表现突出。特别在聊天基准测试中,平均领先基准模型3-8分。更令人瞩目的是,8B参数的模型在WildBench测试中获得50.4分,超越70B级别的大模型和GPT-4o。

\

零训练模式同样取得显著效果:Llama-3.1-8B-RLMT-Zero模型在聊天任务上获得15.6分,比经过复杂训练的指令版本高出5.5分。消融实验证实,提示质量、奖励模型强度和思考过程三者缺一不可,即便奖励模型较弱,RLMT仍能保持优势。

\

思考模式的进化

RLMT不仅提升性能,更改变了模型的思考方式。对比显示,传统模型输出像程序执行般线性推进,而RLMT模型展现出更接近人类的思维特征:先梳理约束条件,分组整合想法,最后优化细节。训练过程中,模型的思考长度持续增加,从200token扩展到600以上。

\

这项研究打破了"数据规模决定性能"的固有认知,证明激发模型思考能力同样关键。虽然还存在优化空间,但RLMT框架为语言模型的理解力培养开辟了新路径。当AI不仅能回答问题,还会像人类一样思考时,我们离真正的通用人工智能又迈进了一步。

来源:https://36kr.com/p/3487655191780232
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

克拉克拉
克拉克拉
应用辅助 04-07
足球决
足球决
体育竞技 04-07
三国:谋定天下
三国:谋定天下
休闲益智 04-07
我的安吉拉
我的安吉拉
休闲益智 04-07
打工20年
打工20年
休闲益智 04-07

热门推荐

宫本茂谈《马里奥》大电影的酷霸王 单凭游戏难以刻画
游戏资讯
宫本茂谈《马里奥》大电影的酷霸王 单凭游戏难以刻画

任天堂吉祥物马里奥的宿敌酷霸王解析:为何这位反派深受喜爱?宫本茂通过电影揭示角色深层魅力 谈到任天堂的经典形象,马里奥与酷霸王这对宿敌的组合可谓深入人心。一边是永不放弃拯救碧姬公主的英雄,另一边则是不断制造混乱的恶棍,故事框架虽简单却历经三十余年依然人气不减。但仔细品味,酷霸王这个角色颇为值得玩味:

热心网友
04.07
洛克王国世界神圣狮鹫图鉴
游戏攻略
洛克王国世界神圣狮鹫图鉴

洛克王国神圣狮鹫图鉴:揭秘悬崖之王的飞行奥秘 当冒险者们踏上洛克王国的高耸悬崖,便能感受到猛烈的疾风。呼啸而过的气流远超平地的强度,然而正是这片常年不息的风域,成为了狮鹫一族最卓越的自然训练场。在这个独特的环境中,它们锤炼出了对抗强风与复杂气流的顶级飞行技巧,其背后的生存智慧,实在值得探险者们深入探

热心网友
04.07
三星电竞显示器连续七年第一!OLED市占率高达26%
网络安全
三星电竞显示器连续七年第一!OLED市占率高达26%

4月2日消息,三星电子最新表示,自2019年起连续七年位居全球第一。根据三星援引的市场调研公司IDC数据,2025年三星电子在全球游戏电竞显示器市场的收入占比达到18 9%。从销量来看,2025年三

热心网友
04.07
苹果计划扫光内存:牺牲利润只为阻击竞争对手的供应
iphone
苹果计划扫光内存:牺牲利润只为阻击竞争对手的供应

内存市场因为人工智能高带宽内存的蓬勃需求而陷入供应紧张,传统内存也因大量产线被占用而供不应求。在这种大背景下,苹果似乎采取了一种争议性的商业手段,来进一步扩大其市场份额。据韩国消息人士透露,苹果公司

热心网友
04.07
内存别想降价了!三星:继第一季度涨价100%之后 第二季度价格再涨30%
电脑教程
内存别想降价了!三星:继第一季度涨价100%之后 第二季度价格再涨30%

4月6日消息,近期内存市场风声鹤唳,现货价格小幅回调就引发了内存价格崩盘”的论调,甚至带动相关个股集体下跌,但行业龙头三星却完全不为所动,反而按计划继续上调DRAM内存产品价格,用实际行动打破了市场

热心网友
04.07