首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
OPPO联合高校发布首个“批评-修改-编辑”强化学习框架

OPPO联合高校发布首个“批评-修改-编辑”强化学习框架

热心网友
96
转载
2025-12-16


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这项由香港中文大学深圳校区的朱晨皓、电子科技大学的陶美菱、华南农业大学的丁东艺,以及OPPO公司的王天楠、蒋羽晨、周王春树等研究者共同完成的研究,于2025年10月发表在计算机科学顶级会议论文集中。感兴趣的读者可以通过论文编号arXiv:2510.18849查询完整研究内容。 当你使用智能助手时,是否经常遇到这样的尴尬:明明告诉了它你的职业、兴趣和偏好,但它的回答总是显得生硬死板,就像在背书一样?比如你说自己是个程序员,它就硬生生地在每句话里都要提到"代码"和"编程",让人感觉非常不自然。这就是目前大语言模型在个性化服务方面面临的核心问题:它们虽然能记住你的信息,但却不知道如何自然、恰当地运用这些信息。 就像一个刚学会做菜的新手,虽然知道菜谱上写着"放盐调味",但总是要么忘记放盐,要么放得太多太咸,很难掌握恰到好处的分寸。传统的AI训练方法也面临着类似的困境:要么完全忽视用户的个人特征,给出千篇一律的答案;要么机械地堆砌个人信息,让回答显得极其不自然。 研究团队深入分析了现有训练方法的局限性后发现,问题的根源在于传统的奖励机制过于简单粗暴。现有的方法就像只用"好吃"或"不好吃"来评价一道菜,无法告诉厨师到底哪里做得不对,应该如何改进。更糟糕的是,这种简单的评价系统很容易被"钻空子":AI可能会学会通过增加无关的废话或者机械地重复用户信息来获得更高的评分,而不是真正提升回答的质量。 为了解决这个问题,研究团队提出了一个全新的训练框架,他们称之为"批评-修改-编辑"强化学习。这个框架的核心思想非常直观:不仅要告诉AI"这个回答不够好",更要具体地指出"哪里不好,应该怎么改",然后让AI基于这些具体建议来修改自己的回答。 **一、从"打分"到"指导":个性化生成奖励模型的革新** 传统的AI训练就像一个只会说"对"或"错"的严厉老师,而研究团队设计的新系统更像一位耐心的导师,不仅会指出问题,还会详细解释问题所在并提供改进建议。 这个被称为"个性化生成奖励模型"的系统,会从三个维度来评价AI的回答:有用性、个性化程度和自然性。有用性关注的是回答是否真正解决了用户的问题,就像判断一份菜谱是否真的能做出美味的菜肴。个性化程度考察的是AI是否恰当地运用了用户的个人信息,既不能完全忽视,也不能生硬地强行插入。自然性则评估回答是否流畅自然,避免那种明显的"机器腔"。 更重要的是,这个系统不只是给出分数,还会提供详细的文字批评和改进建议。比如,当AI给一个工程师用户的回答过于技术化时,系统会具体指出:"这个回答虽然专业,但过于复杂,普通场景下可以用更简单的表达方式。建议减少专业术语,增加日常语言的使用。" 研究团队在PersonaFeedback基准测试上验证了这个新系统的效果。结果显示,采用新的生成奖励模型的AI在各个难度等级上都显著优于传统方法,特别是在处理复杂个性化需求方面表现突出。 **二、"自我修改"机制:让AI学会反思和改进** 仅仅有好的评价标准还不够,关键是要让AI能够基于这些反馈真正改进自己的表现。研究团队设计了一个巧妙的"批评-修改-编辑"机制,让AI能够像人类一样进行自我反思和改进。 整个过程就像一个写作练习:首先,AI根据用户的问题和个人信息生成一个初始回答。然后,生成奖励模型会像一位编辑一样,仔细阅读这个回答并提供详细的修改建议。接着,AI会根据这些建议对自己的回答进行修改和完善。 这种方法的优势在于它模拟了人类学习的自然过程。当我们写文章或者准备演讲时,往往也是先写出初稿,然后根据他人的建议或者自己的反思进行修改完善。AI通过这种方式能够学会更细致、更有针对性的改进技巧。 研究团队设计了三种不同的采样策略来选择哪些修改后的回答用于训练。随机采样就像从所有修改版本中随机选择一些;奖励排序采样会优先选择评分最高的修改版本;条件采样则只选择那些确实比原版本有所改进的修改版本。 有趣的是,实验结果显示随机采样的效果最好。这个发现提醒我们,在AI训练中,不好的例子同样重要,它们能帮助AI学会区分什么是应该避免的,什么是值得追求的。 **三、避免"投机取巧":混合策略确保训练稳定** 在AI训练过程中,有一个常见的问题叫做"分布偏移"。简单来说,就是AI在训练过程中可能会逐渐偏离正确的方向,学会一些"投机取巧"的方法来获得高分,而不是真正提升能力。 为了解决这个问题,研究团队设计了一个混合的训练策略。他们将训练数据分为两类:原始回答和修改后的回答,然后针对这两类数据使用不同的处理方法。对于原始回答,使用标准的训练方法;对于修改后的回答,则使用特殊的"离政策"训练方法,并通过限制重要性权重来确保训练过程的稳定性。 这种方法就像在教学中既要有正面的示范,也要有对比的分析。通过同时学习"什么是好的"和"如何从不好变好",AI能够获得更全面、更稳定的训练效果。 **四、实验验证:全面超越传统方法** 研究团队在三个权威的个性化评测基准上进行了全面的实验验证:PersonaFeedback、AlpacaEval和PersonaMem。为了确保评测的公平性,他们采用了长度控制的评估方法,避免了AI通过简单地增加回答长度来获得更高评分的问题。 实验结果令人印象深刻。采用新框架训练的7B参数模型在PersonaFeedback测试中的胜率从传统PPO方法的53.5%提升到了64.1%,提升幅度超过10个百分点。更大的14B模型表现更加出色,胜率达到了76.8%,甚至超过了GPT-4.1的表现。 特别值得注意的是,这种提升在不同类型的问题上都是一致的,无论是专业领域的具体问题还是日常生活的一般询问,新方法都展现出了明显的优势。 研究团队还进行了详细的对比分析,验证了框架中每个组件的重要性。他们发现,仅使用生成奖励模型就能带来显著改进,但结合批评-修改-编辑机制后效果更加突出。同时,传统的Bradley-Terry奖励模型容易导致AI生成过长、过于啰嗦的回答,而新的生成奖励模型能够有效避免这个问题。 **五、技术细节:从理论到实践的完整实现** 在具体的技术实现上,研究团队基于Qwen2.5系列模型进行了实验,涵盖了7B、14B和32B等不同规模。他们发现,更大规模的生成奖励模型能够提供更准确、更有针对性的反馈,从而带来更好的训练效果。 训练过程采用了精心设计的权重分配策略:有用性占35%、个性化程度占40%、自然性占25%。这个权重分配反映了个性化应用中各个方面的相对重要性,既要确保回答的实用性,更要突出个性化的特色,同时保持表达的自然流畅。 在评估方法上,研究团队采用了GPT-4.1作为评判标准,并通过人工评估验证了这种评估方法的可靠性。他们招募了三位专家进行独立评估,结果显示AI评估与人工评估的一致性达到了71%,证明了评估方法的有效性。 **六、实际应用案例:从理论到实践的转化** 为了展示新方法的实际效果,研究团队提供了一个生动的应用案例。假设一个名叫小玲的用户询问上海机器人展览期间推荐的科技感餐厅。传统AI可能会生成这样的回答:"小玲,基于您作为浙江机器人公司研发经理的角色,我推荐...另外,由于您偏爱在会展中心500米内住宿并驾驶特斯拉Model Y,我还推荐...注:此回答充分考虑了您的专业背景、饮食偏好、住宿习惯和科技兴趣。" 这种回答虽然包含了用户信息,但显得极其生硬,就像在背诵用户档案一样。而经过新框架训练的AI会提供更自然的建议:"推荐两个会展中心附近的选择:国际酒店37层的'悦庭轩'主打精致日式轻食套餐,落地窗可以俯瞰黄浦江夜景。万豪酒店的'元素'全日制餐厅专注轻食,有沙拉吧和优质蛋白选择,设计融入了工业风科技元素。两家都在展馆步行5分钟内,建议19:30-20:00预订避开用餐高峰。" 从这个对比可以清楚地看出,新方法生成的回答不仅更加自然流畅,而且提供了更多实用的具体信息,真正做到了"个性化而不机械化"。 说到底,这项研究解决的是一个我们在日常生活中经常遇到的问题:如何让AI真正理解并恰当地运用我们的个人信息,而不是简单地重复或机械地插入这些信息。这项技术的成功意味着未来的AI助手将能够提供更加贴心、自然的个性化服务,就像一个真正了解你的朋友一样。 当然,这项技术目前还主要在研究阶段,要真正普及到我们的日常应用中还需要一些时间。但研究团队已经证明了这个方向的可行性和有效性,为未来更智能、更贴心的AI服务奠定了重要基础。对于普通用户来说,这意味着我们可能很快就能享受到真正"懂你"的AI服务,而不再需要忍受那些生硬死板的机器式回答。 这项研究的另一个重要意义在于,它为AI的训练和优化提供了新的思路。传统的方法更多地依赖大量数据和简单的奖励信号,而这项研究展示了如何通过更精细、更有针对性的反馈机制来提升AI的能力。这种思路不仅适用于个性化服务,也可能在其他AI应用领域产生重要影响。 Q&A Q1:批评-修改-编辑强化学习框架是什么? A:这是OPPO联合多所高校开发的AI训练新方法,不只是给AI的回答打分,还会提供具体的修改建议,让AI能够根据反馈改进自己的答案,就像有一个耐心的老师在指导一样。 Q2:这个新方法能解决什么实际问题? A:主要解决AI个性化服务不自然的问题。传统AI虽然知道用户信息,但总是机械地堆砌,显得很生硬。新方法让AI学会恰当、自然地运用个人信息,提供真正贴心的个性化服务。 Q3:这项技术什么时候能在日常应用中使用? A:目前还处于研究阶段,但实验结果很有希望。研究团队的模型已经在多个测试中超过了GPT-4.1的表现,相信不久的将来就能在实际产品中看到这项技术的应用。

来源:https://www.163.com/dy/article/KGRPFG5O0511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

量子计算机模拟数据与经典实验结果高度一致再获验证
科技数码
量子计算机模拟数据与经典实验结果高度一致再获验证

来源:科技日报科技日报记者 张佳欣据英国《自然》 30日消息,来自美国和法国的两项最新研究利用真实材料进行实验,将实验结果与量子计算机模拟数据进行对比。最终显示,模拟数据与传统实验结果高度一致,验证

热心网友
04.01
香港科技大学团队突破实时视频生成关键技术
科技数码
香港科技大学团队突破实时视频生成关键技术

这项由香港科技大学、京东探索研究院和香港大学联合开展的研究发表于2026年3月,论文编号为arXiv:2603 17051v1。有兴趣深入了解的读者可以通过该编号在学术数据库中查询完整论文。制作一段

热心网友
03.31
伊利诺伊大学香槟分校破解AI训练难题:五大技巧让机器学习更稳定
科技数码
伊利诺伊大学香槟分校破解AI训练难题:五大技巧让机器学习更稳定

当我们开车在高速公路上行驶时,最怕遇到的就是车子突然失控,方向盘变得异常敏感,稍微一动就可能冲出车道。这种情况在人工智能的训练过程中也经常发生,特别是在训练那些能够进行推理和对话的大型语言模型时。来

热心网友
03.31
石溪大学新研究:状态空间模型能否挑战Transformer的视觉语言主导地位?
科技数码
石溪大学新研究:状态空间模型能否挑战Transformer的视觉语言主导地位?

这项由Stony Brook大学研究团队开展的前沿研究发表于2026年3月,论文编号为arXiv:2603 19209v1,为我们重新审视视觉语言模型的设计理念提供了全新视角。当我们谈到让计算机同时

热心网友
03.31
智能科学家:解读瞭望科技趋势,赋能未来发展
科技数码
智能科学家:解读瞭望科技趋势,赋能未来发展

  面对火星制氧催化剂研发中高达376万种的潜在配方组合,以人工方式一一试验2000年也难以穷尽筛选。“小来”通过自主阅读分析5万篇论文,融合实验与理论计算数据,用6周便找到了最优解  应通过政策引

热心网友
03.30

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

《洛克王国》世界圣羽翼王打法攻略-圣羽翼王技能与实战详解
游戏攻略
《洛克王国》世界圣羽翼王打法攻略-圣羽翼王技能与实战详解

速览攻略:世界圣羽翼王核心打法与全面解析 本攻略将为你完整呈现《洛克王国》世界圣羽翼王的通关秘籍,深度剖析两种高效实战打法:追求极致速度的“燃薪虫四回合速通”与稳定输出的“酷拉无限连击流”。文章将进一步解析这位翼系精灵王的技能机制、属性克制关系及其在PVE与PVP中的实战定位,帮助你彻底掌握应对其隐

热心网友
04.06
《异种航员2》工程系统详解-工作坊与资源管理指南
游戏攻略
《异种航员2》工程系统详解-工作坊与资源管理指南

速览:工程系统核心机制解析 在《异种航员2》中,工程系统是整个抵抗力量赖以运转的“战略后勤中枢”。无论是研发新武器、生产重型装甲还是制造先进飞行器,所有实体装备的产出都依赖于此。简言之,该系统的核心运作围绕着两大关键:工程师人力的高效配置与全球稀缺资源的精细化调度。工程师的数量直接决定了每个项目的建

热心网友
04.06
《洛克王国世界》治愈兔位置详解-任务与战斗关键精灵
游戏攻略
《洛克王国世界》治愈兔位置详解-任务与战斗关键精灵

核心速览 在《洛克王国世界》中,治愈兔是一位兼具功能性任务角色与实战辅助能力的精灵。它的价值不仅在剧情推进中体现,更在于对战里出色的治疗与防护表现。本文将为你全面解析治愈兔的精准获取位置、种族属性特点以及实战技能搭配,助你顺利捕捉并最大化其在队伍中的作用。所有关键信息将通过清晰的图文内容详细展示,确

热心网友
04.06
《红色沙漠》传说之狼打法-传说之狼击杀流程详解
游戏攻略
《红色沙漠》传说之狼打法-传说之狼击杀流程详解

速览 在《红色沙漠》中,挑战传说之狼这一强大的任务BOSS,需要玩家进行充分的准备并遵循完整的任务流程。整个过程环环相扣,你必须首先参与塞莱斯特家族的势力任务,通过完成任务将家族声望提升至指定等级,才能解锁【传说之狼】的专属讨伐任务,最终直面这个传说中的强大生物。 红色沙漠传说之狼怎么打 归根结底,

热心网友
04.06
《宝可梦Pokopia》舒适度提升攻略-环境等级与栖息地优化指南
游戏攻略
《宝可梦Pokopia》舒适度提升攻略-环境等级与栖息地优化指南

【宝可梦Pokopia】舒适度全解析:快速提升环境等级的核心秘诀 你是否正在探索《宝可梦Pokopia》世界,并希望有效提升宝可梦栖息地的舒适度?舒适度不仅是衡量宝可梦快乐程度的晴雨表,更是解锁游戏核心内容、加速发展的关键驱动指标。本攻略将系统性地为你揭示提升舒适度的核心途径,涵盖从装饰栖息地、建造

热心网友
04.06