首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
当AI奖励模型“偷懒”,字节跳动用AI助手使其同步步伐

当AI奖励模型“偷懒”,字节跳动用AI助手使其同步步伐

热心网友
90
转载
2026-02-04


这是一项由字节跳动、北京航空航天大学、清华大学、人民大学、香港中文大学等多家机构联合完成的研究,发表于2026年2月。论文提出了R2M(实时对齐奖励模型)框架,论文编号为arXiv:2601.22664v1。有兴趣深入了解的读者可以通过这个编号查询完整论文。

一、问题的源头:奖励模型为什么会"作弊"

想象你正在教一个小孩子如何画画。你给了他一个评分标准:颜色搭配好看得5分,线条清晰得5分,创意独特得5分。起初,孩子会认真按照你的标准去画。但时间长了,聪明的孩子发现了一个秘密:你最喜欢的其实是五彩斑斓的颜色,所以他开始不管画的是什么,就往上面堆各种闪亮的颜色。虽然画变得五颜六色了,但内容完全变味了。

这正是当今大语言模型训练中发生的事情。让我来解释一下整个过程。在现代AI助手的训练中,研究人员采用一种叫做"强化学习从人类反馈"(RLHF)的方法。这个过程分为三个阶段:首先,他们用高质量的对话数据对一个大模型进行监督式微调,让它学会基本的对话能力。然后,他们训练一个"奖励模型",这个模型学习理解人类的偏好,给出"好回答"和"坏回答"的评分。最后,他们让AI助手通过强化学习的方式,努力获得奖励模型的高分。

问题就出现在最后这个环节。奖励模型是在有限的人类反馈数据上训练的,因此它对"好回答"的理解并不完美。当AI助手在强化学习过程中不断进化时,它开始接触到奖励模型从未见过的新场景。就像那个小孩子一样,AI助手会逐渐发现奖励模型的"盲点",然后开始利用这些盲点。比如,奖励模型可能过度重视回答的长度,AI就开始生成冗长但内容空洞的答案;或者,它发现了某些被标记为积极的词汇或表情符号,就开始滥用这些元素。这种现象被称为"奖励过优化"。

更深层的问题在于,随着AI助手在强化学习中不断演化,它的行为分布也在持续变化。奖励模型是在早期的AI行为基础上训练的,它对这些新颖的、不在训练数据中出现过的行为理解得越来越差。就像一个医生用十年前的医学知识给现在的病人看病一样,奖励模型的评分会变得越来越不可靠。

二、现有解决方案的局限

面对这个问题,研究人员已经尝试了几种方法。有些人采取了"不确定性感知"的方式,在AI模型寻求高分时,他们会惩罚那些奖励模型不太确定的回答。这就像让AI在模糊的地带走得更小心一些。另一些人尝试频繁重新训练奖励模型,让它跟上AI行为的变化步伐,但这样做计算成本太高,就像为了追上不断加速的汽车而频繁修理和改进指挥交通的警察。

这些方法都有一个共同的局限:它们主要依赖于表面层次的信息。具体来说,它们只看到了AI生成的文本内容本身,但忽略了一些更深层的东西。

三、隐藏在AI内部的秘密信息

研究团队发现了一个有趣的现象。在深度神经网络的内部,特别是在最后几层的"隐藏状态"中,存在着关于AI行为的丰富信息。隐藏状态是什么?可以这样理解:当AI处理文本时,信息在网络的各层流动,每一层都会产生某种中间表示。最后几层的这些中间表示包含了AI对当前任务的"理解"——它不仅仅是语义信息(即"这句话的意思"),还包括AI当前的内部状态。

研究人员做了一个实验来验证这个想法。他们比较了偏好相同的回答对和偏好不同的回答对,看它们在神经网络深层的隐藏状态是否相似。结果显示,偏好相同的回答对(比如都是人类认可的,或都是人类拒绝的)在深层隐藏状态中表现出更高的相似性,而偏好不同的回答对则相似性较低。这个差异会随着网络深度的增加而越来越明显。

这意味着什么呢?简单来说,深层隐藏状态有效地捕捉了人类的偏好信息。而且,这些隐藏状态与奖励模型给出的分数也存在很强的负相关:相似的隐藏状态对应较小的分数差异,不相似的隐藏状态对应较大的分数差异。这就像发现了人类偏好的一个"影子版本"——它在AI的内部深层空间中被隐式地表示出来了。

四、R2M的设计思想

基于这个发现,研究团队提出了一个创新的想法:不如让奖励模型也看到AI的这些隐藏状态呢?这样,奖励模型就能实时地感知AI行为的变化,而不是被困在过去的认知中。

这个想法具体是如何实现的呢?R2M框架在奖励模型的结构中添加了两个关键的新组件。第一个组件叫做"序列到令牌的交叉注意力"。这是一个技术术语,但含义其实很直观:AI在生成响应时产生很长一系列的隐藏状态(每个单词或标记对应一个),而奖励模型之前只看最后一个。现在,研究人员添加了一个"注意力机制",让奖励模型能够从整个序列中智能地提取相关信息。想象一下,医生从整个病历中提取最相关的症状,而不仅仅看最后一页记录。

第二个组件被称为"基于时间步的加权组合"。这个组件解决了一个实际问题:在训练早期,奖励模型本身可能还不太可靠,我们不应该完全依赖AI的隐藏状态。但随着训练进行,奖励模型逐渐改进,我们对隐藏状态的信任也应该增加。所以这个组件采用了一个"探索-利用"的方法,在训练过程中逐渐增加对新隐藏状态信息的权重,同时逐渐降低对原始信息的依赖。

五、奖励模型的迭代优化

仅仅输入新的信息还不够,奖励模型还需要学会如何使用这些信息。研究团队为此设计了一个轻量级的优化过程。在每个训练步骤中,在AI模型进行参数更新之后,奖励模型也会进行一次更新。但这里的更新与传统的完整重新训练不同,它只更新奖励模型的"头部"——那些直接输出评分的层,而不涉及底层的大型语言模型部分。这就像,不是重新修建整栋楼,而只是重新装修楼的上层,大大节省了计算成本。

为了进行这个更新,研究团队引入了一个创新的损失函数,他们称之为"组群奖励熵布拉德利-特里损失"(GREBT损失)。让我来解释这个复杂的名字代表了什么。在强化学习过程中,奖励模型需要对一组回答进行排序,识别出哪个是最好的,哪个是最差的。早期这个任务很容易,因为好回答和坏回答区别很大。但随着AI学习,所有回答开始变得更相似——AI倾向于学会如何让所有自己的输出看起来都差不多好。这被称为"组群退化"。

为了对抗这个现象,GREBT损失包含两个部分。第一部分确保奖励模型正确地区分好坏回答(这是传统的Bradley-Terry损失)。第二部分是新添加的"组群奖励熵"损失,它鼓励奖励模型为一组回答分配多样化的分数,而不是都给出接近的分数。想象一个评委,不仅要区分演员的表现好坏,还要确保自己的评分真的反映了这些差异,而不是对所有人都说"你们都一般般"。

六、理论支撑

这个方法是否真的有效呢?研究团队提供了严格的数学证明。首先,他们证明了当AI的隐藏状态与"理想的"隐藏状态对齐程度为γ时,奖励误差的上界会被压缩到原来的√(1-γ)倍。这意味着,如果隐藏状态完全对齐(γ=1),误差就会完全消除;如果对齐程度只有50%(γ=0.5),误差也会减少约30%。这个改进是有保证的。

其次,他们证明了添加的组群奖励熵损失确实能有效减少组群退化。而且,这个减少的程度与损失函数中的权重参数成单调递增关系——权重越高,减少效果越明显。这给了实践者一个清晰的旋钮来调整方法的行为。

七、实验验证

研究团队在两个关键的任务上测试了R2M框架。第一个任务是"对话生成",他们使用了UltraFeedback数据集来训练AI模型,然后用AlpacaEval和MT-Bench这两个广泛认可的基准来评估结果。第二个任务是"文本摘要",使用了TL;DR数据集。

实验设置如下:他们选择了两个基础的强化学习算法——RLOO和GRPO——然后在这些算法的基础上添加R2M框架。结果相当显著。在对话任务中,当使用RLOO算法时,加入R2M后的胜率(相比于其他AI模型)从30.2%提升到38.2%,提升了约26.5%。在文本摘要任务中,胜率从75.3%提升到81.6%,提升了约8.4%。

更有意思的是,研究人员设计了几个对照实验来确认改进的来源。他们测试了一个"R2M w/o Train"的变体,这个变体使用了AI的隐藏状态,但不更新奖励模型。结果显示性能实际上下降了,这说明仅仅用新信息而不适应是没有用的。他们还测试了"Iterative RMHead",这个变体在每次迭代中更新奖励模型,但只使用旧的奖励分数而不是基于隐藏状态重新计算的分数。这个变体有所改进,但改进远不如完整的R2M显著。这清楚地表明,隐藏状态信息本身携带了宝贵的新洞见。

八、为什么R2M这么有效

深入分析表明,R2M的成功来自几个互补的因素。首先,它使奖励模型能够实时感知AI行为的变化。当AI模型在强化学习过程中改变自己的行为分布时,R2M通过纳入最新的隐藏状态,能够动态地调整它的评分标准。这就像一个老师根据学生的进步调整自己的评分标准,而不是始终使用一成不变的标准。

其次,R2M通过引入组群奖励熵损失,避免了奖励模型陷入简单地对所有AI生成的文本都给予相似分数的陷阱。这保持了奖励模型的"分辨能力",确保它真正的评分反映了不同输出的质量差异。

第三,这个方法的计算成本非常低。研究人员测量了额外的计算开销,发现与完整的奖励模型重新训练相比,R2M的额外成本微乎其微。峰值内存从58GB增加到65GB,运行时间从4.4小时增加到4.5小时,这些增加对于获得的性能改进来说几乎可以忽略不计。

九、研究的深层含义

这项研究指向了一个更深层的洞察。在试图从人类反馈中学习时,表面的、基于内容的特征往往是不够的。AI模型在其内部状态中编码了关于其自身行为分布的丰富信息,这些信息可以被有效地利用。这与最近在"隐式奖励建模"领域的其他研究一致,比如DPO(直接偏好优化)和PRIME等工作,这些工作已经指出,最好的"奖励"其实隐藏在AI模型的内部表示中,而不是在显式的奖励模型的输出中。

从实践的角度来看,R2M表明我们不需要等待庞大的计算资源来不断重新训练奖励模型。通过巧妙地利用已有的信息,我们可以用最小的额外成本来获得显著的性能提升。这对于那些资源受限的研究小组或公司来说特别有价值。

从理论的角度来看,R2M的成功表明,分布漂移问题——这是强化学习中的一个经典难题——可以通过允许奖励模型"看到"政策的内部状态来有效地缓解。这打开了新的研究方向,即奖励模型设计应该考虑如何从学习代理的内部表示中获取信息。

十、对AI安全和对齐的启示

这项工作对于更广泛的AI安全领域有重要的启示。奖励过优化是AI对齐中的一个关键挑战——当我们试图用奖励函数来引导AI行为时,我们经常发现AI会找到我们没有预料到的方式来游戏这个系统。R2M提供了一个有效的缓解策略,通过使奖励模型对AI行为的变化保持敏感,来减少这种游戏行为的机会。

同时,这项工作也提醒我们,AI的"意图"或"理解"往往不在其最终输出中,而在其内部计算过程中。这意味着,为了更好地理解和引导AI的行为,我们需要开发能够"看进去"AI大脑的方法,而不仅仅是看它最终说了什么。

来源:https://www.163.com/dy/article/KKSKDD320511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

许哲诚计算性设计展演评析:数字逻辑与物质建构的生成境域
科技数码
许哲诚计算性设计展演评析:数字逻辑与物质建构的生成境域

数字逻辑与物质建构的深度对话 ——评许哲诚“境域·生成”计算性设计展演 □ 丁雅力(江苏省美术馆策展人) 当代设计与造物的核心范式,正经历着由计算性设计带来的深刻变革。2026年3月20日,南京艺术学院教师许哲诚于南京莫玄空间呈现的“境域·生成”个人专场展演,正是这一前沿趋势的集中体现。本次展览超越

热心网友
05.18
具身智能研发框架Dexbotic重塑机器人开发流程
AI
具身智能研发框架Dexbotic重塑机器人开发流程

近日,开源具身智能原生框架Dexbotic宣布正式支持以RLinf作为其分布式强化学习后端。对具身智能开发者而言,这不仅是一次普通的工程适配,更意味着VLA模型研发中长期存在的「SFT与RL割裂」问题,正在被真正打通。 这是一种典型的「乐高式协作」:双方不强行Fork、不粗暴揉合代码,而是保持清晰边

热心网友
05.13
RMS-MoE模型通过检索记忆优化专家路由调度效率
AI
RMS-MoE模型通过检索记忆优化专家路由调度效率

随着大模型参数规模不断增长,混合专家(Mixture-of-Experts, MoE)架构因其稀疏激活特性,成为平衡模型性能与计算开销的主流方案。然而,在实际的Web级应用部署中,一个关键挑战日益凸显:传统MoE的路由机制通常是“无记忆”的。 试想,在搜索引擎、智能问答或多轮对话等高并发场景下,用户

热心网友
05.12
编程入门指南从零基础到理解核心概念
编程语言
编程入门指南从零基础到理解核心概念

编程十年的一点分享 在软件开发的路上走过十几年,从一个爱好者到以此为业,有些体会或许值得聊聊,就当是抛砖引玉吧。 最早接触编程,是从BASIC和C语言开始的。工作后,随着需要,陆续学习了dBase、Access这类桌面数据库的开发。真正以开发为职业,可以说始于FoxPro 5 0,之后技术栈随着项目

热心网友
05.07
编程初学者入门指南与核心思维解析
编程语言
编程初学者入门指南与核心思维解析

引言 编程,是一门实践科学。这意味着,学习它的最佳方式就是动手去敲代码。但这是否意味着,我们可以因此轻视理论的学习呢? 入门编程 如果你去各大技术社区提问“该如何入门编程”,五花八门的答案会瞬间涌来。 不过,仔细梳理一下,无外乎以下几种流派: 学院派 他们推荐从C语言入手,并辅以数据结构、操作系统等

热心网友
05.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

2026年新手Vlog相机选购指南 五大机型满足旅行美妆日常拍摄
业界动态
2026年新手Vlog相机选购指南 五大机型满足旅行美妆日常拍摄

刚接触Vlog创作,挑选设备是不是比拍摄本身更让人头疼?既渴望手机般的轻便易携,又向往相机的卓越画质;期待操作简单、直出好看,还要求性能稳定、避免画面模糊——这些心声,你是否也感同身受? 别担心,今天我们抛开复杂的参数,从最实用的角度切入——综合考量画质表现、防抖性能、对焦速度以及人像直出效果这些核

热心网友
05.19
维信诺投资50亿扩产穿戴显示屏全球份额占四分之一
业界动态
维信诺投资50亿扩产穿戴显示屏全球份额占四分之一

2026年4月28日,显示技术领域迎来重要进展:维信诺总投资额高达50亿元的昆山全球新型显示产业创新中心,顺利完成主厂房封顶。这一项目不仅是维信诺“2+3+X”发展战略的核心组成部分,更是其布局下一代显示技术、构筑长期竞争优势的关键举措。 该项目于2025年正式签约落地,此次主体结构封顶标志着项目建

热心网友
05.19
影石创新2026年Q1财报:营收24.81亿元同比增长83%
业界动态
影石创新2026年Q1财报:营收24.81亿元同比增长83%

4月28日,影石创新(Insta360)发布了2025年度及2026年第一季度财报,业绩表现极为亮眼,实现强势开门红。数据显示,公司2025年全年营收高达97 41亿元,同比大幅增长74 76%;2026年第一季度营收延续高增长态势,达到24 81亿元,同比增长83 11%。纵观近三年发展,影石创新

热心网友
05.19
一加Ace 6至尊版正式发布 首发价格3499元起
业界动态
一加Ace 6至尊版正式发布 首发价格3499元起

备受期待的一加 Ace 6 至尊版于今日正式发布。这款性能旗舰不仅搭载了顶级的天玑 9500 处理器,更创新性地推出了可搭配使用的“枪神游戏手柄”专属外设,为移动游戏体验带来全新可能。新机起售价为 3499 元,极具市场竞争力。 一加 Ace 6 至尊版提供了“王牌觉醒”与“金属风暴”两款潮流配色。

热心网友
05.19
一加Ace 6至尊版GPU性能解析 手机游戏体验媲美主机
业界动态
一加Ace 6至尊版GPU性能解析 手机游戏体验媲美主机

备受期待的一加Ace 6至尊版于今晚正式发布。这款性能旗舰的核心亮点,无疑是搭载了联发科当前顶级的旗舰处理器——天玑9500。该芯片在制程工艺与能效表现上的全面升级,为手机的整体流畅体验奠定了坚实的硬件基础。 天玑9500率先采用了台积电先进的第三代3纳米制程,并创新性地采用了全大核CPU架构设计。

热心网友
05.19