OPPO联合高校发布首个“批评-修改-编辑”强化学习框架

时间：2025-12-16 10:49

这项由香港中文大学深圳校区的朱晨皓、电子科技大学的陶美菱、华南农业大学的丁东艺，以及OPPO公司的王天楠、蒋羽晨、周王春树等研究者共同完成的研究，于2025年10月发表在计算机科学顶级会议论文集中。

这项由香港中文大学深圳校区的朱晨皓、电子科技大学的陶美菱、华南农业大学的丁东艺，以及OPPO公司的王天楠、蒋羽晨、周王春树等研究者共同完成的研究，于2025年10月发表在计算机科学顶级会议论文集中。感兴趣的读者可以通过论文编号arXiv:2510.18849查询完整研究内容。当你使用智能助手时，是否经常遇到这样的尴尬：明明告诉了它你的职业、兴趣和偏好，但它的回答总是显得生硬死板，就像在背书一样？比如你说自己是个程序员，它就硬生生地在每句话里都要提到"代码"和"编程"，让人感觉非常不自然。这就是目前大语言模型在个性化服务方面面临的核心问题：它们虽然能记住你的信息，但却不知道如何自然、恰当地运用这些信息。就像一个刚学会做菜的新手，虽然知道菜谱上写着"放盐调味"，但总是要么忘记放盐，要么放得太多太咸，很难掌握恰到好处的分寸。传统的AI训练方法也面临着类似的困境：要么完全忽视用户的个人特征，给出千篇一律的答案；要么机械地堆砌个人信息，让回答显得极其不自然。研究团队深入分析了现有训练方法的局限性后发现，问题的根源在于传统的奖励机制过于简单粗暴。现有的方法就像只用"好吃"或"不好吃"来评价一道菜，无法告诉厨师到底哪里做得不对，应该如何改进。更糟糕的是，这种简单的评价系统很容易被"钻空子"：AI可能会学会通过增加无关的废话或者机械地重复用户信息来获得更高的评分，而不是真正提升回答的质量。为了解决这个问题，研究团队提出了一个全新的训练框架，他们称之为"批评-修改-编辑"强化学习。这个框架的核心思想非常直观：不仅要告诉AI"这个回答不够好"，更要具体地指出"哪里不好，应该怎么改"，然后让AI基于这些具体建议来修改自己的回答。 **一、从"打分"到"指导"：个性化生成奖励模型的革新** 传统的AI训练就像一个只会说"对"或"错"的严厉老师，而研究团队设计的新系统更像一位耐心的导师，不仅会指出问题，还会详细解释问题所在并提供改进建议。这个被称为"个性化生成奖励模型"的系统，会从三个维度来评价AI的回答：有用性、个性化程度和自然性。有用性关注的是回答是否真正解决了用户的问题，就像判断一份菜谱是否真的能做出美味的菜肴。个性化程度考察的是AI是否恰当地运用了用户的个人信息，既不能完全忽视，也不能生硬地强行插入。自然性则评估回答是否流畅自然，避免那种明显的"机器腔"。更重要的是，这个系统不只是给出分数，还会提供详细的文字批评和改进建议。比如，当AI给一个工程师用户的回答过于技术化时，系统会具体指出："这个回答虽然专业，但过于复杂，普通场景下可以用更简单的表达方式。建议减少专业术语，增加日常语言的使用。" 研究团队在PersonaFeedback基准测试上验证了这个新系统的效果。结果显示，采用新的生成奖励模型的AI在各个难度等级上都显著优于传统方法，特别是在处理复杂个性化需求方面表现突出。 **二、"自我修改"机制：让AI学会反思和改进** 仅仅有好的评价标准还不够，关键是要让AI能够基于这些反馈真正改进自己的表现。研究团队设计了一个巧妙的"批评-修改-编辑"机制，让AI能够像人类一样进行自我反思和改进。整个过程就像一个写作练习：首先，AI根据用户的问题和个人信息生成一个初始回答。然后，生成奖励模型会像一位编辑一样，仔细阅读这个回答并提供详细的修改建议。接着，AI会根据这些建议对自己的回答进行修改和完善。这种方法的优势在于它模拟了人类学习的自然过程。当我们写文章或者准备演讲时，往往也是先写出初稿，然后根据他人的建议或者自己的反思进行修改完善。AI通过这种方式能够学会更细致、更有针对性的改进技巧。研究团队设计了三种不同的采样策略来选择哪些修改后的回答用于训练。随机采样就像从所有修改版本中随机选择一些；奖励排序采样会优先选择评分最高的修改版本；条件采样则只选择那些确实比原版本有所改进的修改版本。有趣的是，实验结果显示随机采样的效果最好。这个发现提醒我们，在AI训练中，不好的例子同样重要，它们能帮助AI学会区分什么是应该避免的，什么是值得追求的。 **三、避免"投机取巧"：混合策略确保训练稳定** 在AI训练过程中，有一个常见的问题叫做"分布偏移"。简单来说，就是AI在训练过程中可能会逐渐偏离正确的方向，学会一些"投机取巧"的方法来获得高分，而不是真正提升能力。为了解决这个问题，研究团队设计了一个混合的训练策略。他们将训练数据分为两类：原始回答和修改后的回答，然后针对这两类数据使用不同的处理方法。对于原始回答，使用标准的训练方法；对于修改后的回答，则使用特殊的"离政策"训练方法，并通过限制重要性权重来确保训练过程的稳定性。这种方法就像在教学中既要有正面的示范，也要有对比的分析。通过同时学习"什么是好的"和"如何从不好变好"，AI能够获得更全面、更稳定的训练效果。 **四、实验验证：全面超越传统方法** 研究团队在三个权威的个性化评测基准上进行了全面的实验验证：PersonaFeedback、AlpacaEval和PersonaMem。为了确保评测的公平性，他们采用了长度控制的评估方法，避免了AI通过简单地增加回答长度来获得更高评分的问题。实验结果令人印象深刻。采用新框架训练的7B参数模型在PersonaFeedback测试中的胜率从传统PPO方法的53.5%提升到了64.1%，提升幅度超过10个百分点。更大的14B模型表现更加出色，胜率达到了76.8%，甚至超过了GPT-4.1的表现。特别值得注意的是，这种提升在不同类型的问题上都是一致的，无论是专业领域的具体问题还是日常生活的一般询问，新方法都展现出了明显的优势。研究团队还进行了详细的对比分析，验证了框架中每个组件的重要性。他们发现，仅使用生成奖励模型就能带来显著改进，但结合批评-修改-编辑机制后效果更加突出。同时，传统的Bradley-Terry奖励模型容易导致AI生成过长、过于啰嗦的回答，而新的生成奖励模型能够有效避免这个问题。 **五、技术细节：从理论到实践的完整实现** 在具体的技术实现上，研究团队基于Qwen2.5系列模型进行了实验，涵盖了7B、14B和32B等不同规模。他们发现，更大规模的生成奖励模型能够提供更准确、更有针对性的反馈，从而带来更好的训练效果。训练过程采用了精心设计的权重分配策略：有用性占35%、个性化程度占40%、自然性占25%。这个权重分配反映了个性化应用中各个方面的相对重要性，既要确保回答的实用性，更要突出个性化的特色，同时保持表达的自然流畅。在评估方法上，研究团队采用了GPT-4.1作为评判标准，并通过人工评估验证了这种评估方法的可靠性。他们招募了三位专家进行独立评估，结果显示AI评估与人工评估的一致性达到了71%，证明了评估方法的有效性。 **六、实际应用案例：从理论到实践的转化** 为了展示新方法的实际效果，研究团队提供了一个生动的应用案例。假设一个名叫小玲的用户询问上海机器人展览期间推荐的科技感餐厅。传统AI可能会生成这样的回答："小玲，基于您作为浙江机器人公司研发经理的角色，我推荐...另外，由于您偏爱在会展中心500米内住宿并驾驶特斯拉Model Y，我还推荐...注：此回答充分考虑了您的专业背景、饮食偏好、住宿习惯和科技兴趣。" 这种回答虽然包含了用户信息，但显得极其生硬，就像在背诵用户档案一样。而经过新框架训练的AI会提供更自然的建议："推荐两个会展中心附近的选择：国际酒店37层的'悦庭轩'主打精致日式轻食套餐，落地窗可以俯瞰黄浦江夜景。万豪酒店的'元素'全日制餐厅专注轻食，有沙拉吧和优质蛋白选择，设计融入了工业风科技元素。两家都在展馆步行5分钟内，建议19:30-20:00预订避开用餐高峰。" 从这个对比可以清楚地看出，新方法生成的回答不仅更加自然流畅，而且提供了更多实用的具体信息，真正做到了"个性化而不机械化"。说到底，这项研究解决的是一个我们在日常生活中经常遇到的问题：如何让AI真正理解并恰当地运用我们的个人信息，而不是简单地重复或机械地插入这些信息。这项技术的成功意味着未来的AI助手将能够提供更加贴心、自然的个性化服务，就像一个真正了解你的朋友一样。当然，这项技术目前还主要在研究阶段，要真正普及到我们的日常应用中还需要一些时间。但研究团队已经证明了这个方向的可行性和有效性，为未来更智能、更贴心的AI服务奠定了重要基础。对于普通用户来说，这意味着我们可能很快就能享受到真正"懂你"的AI服务，而不再需要忍受那些生硬死板的机器式回答。这项研究的另一个重要意义在于，它为AI的训练和优化提供了新的思路。传统的方法更多地依赖大量数据和简单的奖励信号，而这项研究展示了如何通过更精细、更有针对性的反馈机制来提升AI的能力。这种思路不仅适用于个性化服务，也可能在其他AI应用领域产生重要影响。 Q&A Q1：批评-修改-编辑强化学习框架是什么？ A：这是OPPO联合多所高校开发的AI训练新方法，不只是给AI的回答打分，还会提供具体的修改建议，让AI能够根据反馈改进自己的答案，就像有一个耐心的老师在指导一样。 Q2：这个新方法能解决什么实际问题？ A：主要解决AI个性化服务不自然的问题。传统AI虽然知道用户信息，但总是机械地堆砌，显得很生硬。新方法让AI学会恰当、自然地运用个人信息，提供真正贴心的个性化服务。 Q3：这项技术什么时候能在日常应用中使用？ A：目前还处于研究阶段，但实验结果很有希望。研究团队的模型已经在多个测试中超过了GPT-4.1的表现，相信不久的将来就能在实际产品中看到这项技术的应用。

来源：https://www.163.com/dy/article/KGRPFG5O0511DTVV.html