AI评估能力进化史 EVOLM揭示模型自定规则的结构化进程
强化学习已成为大语言模型后训练阶段的关键技术,但一个根本性难题始终存在:可靠的奖励信号从何而来?依赖昂贵的人工标注、存在供应链风险的闭源模型(如GPT-4)、易被“破解”的标量奖励模型,或仅适用于数学、代码等有标准答案领域的可验证奖励,都各有局限。近期,来自华盛顿大学、AI2和宾夕法尼亚大学的研究团队提出了一种创新解决方案:让模型自主生成评分标准,并利用这套标准进行自我训练,实现协同进化。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
实验结果令人瞩目:基于Qwen3-8B训练的评分标准生成器,在RewardBench-2基准上的表现超越了GPT-4,领先幅度达25.7%。使用该标准训练出的策略模型,在OLMo3-Adapt的12项基准测试中平均得分达到69.3%,不仅比使用GPT-4生成标准训练的策略高出3.9%,甚至超越了当前最先进的8B标量奖励模型SkyWork-RM训练的策略,优势达16%。
外部监督的固有瓶颈
论文开篇即指出当前奖励机制的瓶颈:各类外部监督方式均存在天花板。人类判断难以评估超越自身认知的模型输出;依赖闭源API带来可控性与安全风险;标量奖励模型易遭遇策略模型的“奖励破解”攻击;而可验证奖励的适用范围又过于狭窄。
研究揭示了一个关键洞见:语言模型在预训练阶段已内化了海量的评估性知识。强化学习的任务,应是激发并结构化这些内在知识,而非从零开始灌输外部标准。真正的挑战在于,如何将模型隐含的评估能力,转化为可用于训练的可操作奖励信号。
为此,论文提出了一个两阶段评估框架:首先由“评分标准生成器”明确“衡量哪些维度”,再由“打分器”依据这套具体、可核查的标准进行评分。这种方法的优势在于:对于小模型独立判断困难的复杂问题,提供明确的评分项能极大提升判断的可靠性;同时,自然语言形式的评分标准具备可读性、可审查性,并能在不同打分器间复用。
[Table 1: 各类基于rubric的RL方法设计空间对比]RAR、RRD依赖闭源API;RLCER、Rubric-ARM需要外部标签;EVOLM是唯一同时满足“训练rubric生成器”、“不依赖闭源API”、“不需要外部标签”、“不局限于可验证领域”、“与policy共同进化”五项条件的方法。
图片
定义并优化“评分标准的质量”
本项工作的核心突破,在于为“评分标准的质量”提供了一个可直接优化的定义:一套优质的标准,应能帮助打分器,为更优的回答给出更高的分数。
形式化表述为:给定一个偏好对(回答A优于回答B),若打分器在特定评分标准下给A的分数高于B,则该标准被视为“具备辨识力”。研究将评分标准视为潜变量,通过变分推断推导出证据下界优化目标:标准生成器需最大化“打分器正确重建偏好顺序”的对数似然,同时受KL散度约束,使其输出接近参考模型的分布。
由于评分标准是离散文本,研究采用策略梯度进行优化。在实际训练中,使用“边际差+格式校验”的组合来替代log-sigmoid奖励:
图片
其中α=0.7,R_format是一个{0,1}的JSON格式校验项,用于确保生成的评分标准符合打分器可解析的既定模式。
[Figure 2: EVOLM的双阶段交替训练流程]阶段1,冻结rubric生成器ρ,policy针对每个问题采样n个回答,judge按rubric打分作为policy的奖励。阶段2,更新后的policy构造偏好对(a+, a-),rubric生成器采样n个候选rubric,judge在两个回答上打分,score(a+)−score(a-)的差作为rubric生成器的奖励。judge全程冻结。
图片
方法实现的关键细节
研究采用了单模型共享参数的设计,使用同一个Qwen3-8B模型通过不同提示词来分别扮演策略模型和评分标准生成器。这一设计将显存占用减半,而消融实验表明,其下游效果与使用两个独立模型的配置几乎一致(均为69.3%)。打分器则固定使用冻结的Qwen3-1.7B,从而确保奖励信号的改进完全源于评分标准生成器自身的进化。
交替训练的节奏K设置为50。即策略模型先训练50步,然后评分标准生成器再训练50步,如此循环。实验发现,K值过小(如2)会导致双方均未充分收敛,K值过大(如100)则会使标准生成器训练时所依赖的策略分布过于陈旧。K=50是消融实验中下游性能表现最佳的点。
训练所需的偏好对完全无需外部标注。论文提供了三种构建方法,默认以随机均匀的方式采样使用:
(1)时序对比:将当前训练步生成的回答作为正例,从20到100步之前的历史生成中采样一个作为负例。随着训练推进,“更早”的回答被逐渐替换,自然形成了一种课程学习机制。
(2)问题回推:给定一个正例回答,让策略模型推断其原本对应的问题,再用这个推断出的问题生成一个负例回答,以此检验评分标准是否能判断“回答是否切题”。
(3)按标准生成:使用当前的评分标准引导策略模型生成一个正例回答,同时在不使用标准的情况下生成一个负例回答,直接验证评分标准对生成质量的指导作用。
训练数据来源于Tulu 3偏好数据集去重后的大约27.1万条提示,覆盖对话、指令遵循、数学推理、代码生成、科学问答、角色扮演等多种类型。策略模型和标准生成器均使用GRPO方法训练,每个提示采样8个回答,学习率为1e-6,KL系数为0.001。
一个反直觉的重要发现
[Table 2: 各方法在rubric质量和下游policy质量上的对比]EVOLM在OLMo3-Adapt上12项平均69.3%,领先GPT-4.1 prompted(66.7%)、Qwen3-8B prompted(67.5%)以及RAR、RRD、RLCER、RUBRIC-ARM四种已有rubric-based RL方法(66.7%–67.6%)。代码生成提升最大(HumanEval+ 86.2% vs 次优80.5%)。
图片
最反直觉的结果出现在与标量奖励模型的对比中。SkyWork-RM-V2在RewardBench-2上获得了86.4%的高分(EVOLM为46.0%),在JudgeBench上也达到80.8%,在两个榜单上都大幅领先。然而,用它训练出的策略模型,在下游任务上的平均得分仅为59.7%,比EVOLM低了9.6个百分点。
这印证了“奖励过优化”的已知结论:静态的评估标准——无论是编码在模型权重中,还是固化在提示词里——都难以适应一个持续学习的策略模型。策略模型在训练中会不断寻找“欺骗”固定奖励函数的捷径。而协同进化的评分标准之所以有效,正是因为它能随着策略模型分布的变化而动态调整,始终保持有效的辨识力。
评分标准从“抽象标签”进化为“可核验检查项”
论文通过大量定性分析,揭示了一个有趣的演变机制。以“周长为48的矩形,求其最大面积”问题为例:在训练第100步时,评分标准是“正确应用周长公式”、“正确求最大值”等权重均等的通用步骤;到了第1000步,标准浓缩为3条,其中权重高达0.8的第一条直接写明“答案是正确的最大面积144,由给定周长48推导得出”,将一道证明题的评估,转变为了答案核对。
对100个评估提示的统计证实了这一趋势:仅有抽象标签而无具体内容的评判标准从21.9%降至0.3%;嵌入了具体期望值的标准从6.9%升至19.3%;约束类标准从7.7%升至20.3%。标准的条目数稳定在3到4条,但平均长度从59个字符增长到了112个字符。
协同进化训练将评估从依赖“整体语义判断”转变为可执行的“模式匹配”,而模式匹配正是小型打分器能够可靠完成的任务。
卓越的跨领域、跨模型、跨打分器迁移能力
研究在Tulu 3数据集上训练,却在完全未见过的深度研究任务上进行了测试。
[Table 3: 在HealthBench和ResearchQA上与专家rubric的pairwise一致率]EVOLM在HealthBench达到58.4%(GPT-4.1 prompted 52.5%),在ResearchQA达到59.3%(GPT-4.1 51.0%),过滤掉模糊偏好对后的Acc@δ指标上优势更明显。
图片
更进一步,研究将训练好的评分标准生成器冻结,用于训练一个全新的、未见过的策略模型:
[Table 4: 跨模型迁移结果]Qwen3-4B用EVOLM rubric训出的policy平均65.2%,超过GPT-4.1 rubric的64.4%;Llama-3.1-8B换成EVOLM rubric从45.7%提到46.9%。Qwen3家族内代码生成提升显著(HE+ 77.9% vs 70.1%)。
图片
[Table 5: 跨judge评估]rubric生成器在Qwen3-1.7B上训出后,换到Qwen3-8B当judge推理,RewardBench-2提升22.7个百分点(62.4% vs 39.7%),JudgeBench提升15.7个百分点。说明训好的rubric编码的是可复用的评估结构,更强的judge反而能从中获得更多信号。
图片
“协同进化”过程本身决定训练质量
[Table 7: 7个维度的消融汇总]K从2到100下游只在67.9%–69.3%之间波动;judge从0.6B换到14B,RewardBench-2从22.1%跃升到67.6%,但下游policy反而在1.7B judge下最优。在所有消融组中,RewardBench-2最高的变体从来都不是下游policy最好的变体。
图片
涵盖奖励设计、交替频率、单双模型、偏好信号、打分器大小、跨架构等7个维度的消融实验,共同指向一个核心结论:决定最终训练质量的是“协同进化”这一动态过程本身,而非任何具体的配置参数。静态的、保留的评估并不能反映评分标准在策略训练过程中的真实价值。
这项研究最终阐明:语言模型内部本就蕴藏着丰富的评估性知识,强化学习的作用在于将其激发并结构化。当这种“激发”不再依赖外部裁判,而是让模型自主将评估能力转化为可读、可训练、且能与策略同步进化的评分标准时,奖励信号便有望突破人类判断和闭源API的双重限制。
当然,该方法也存在局限:冻结打分器的设计虽将改进来源唯一限定于标准生成器,但也可能限制了评分标准复杂度的上限;此外,该方法在通用后训练数据上得到验证,其在医学、法律等专业领域混合数据上的表现,仍是一个有待探索的开放问题。
原文标题:EVOLM: Self-Evolving Language Models through Co-Evolved Discriminative Rubrics
原文链接:https://arxiv.org/abs/2605.03871
相关攻略
近日,飞猪联合小红书共同发布《“五一”出行趋势洞察报告》,其中揭示了一个值得业界高度关注的动向:人工智能技术在旅游消费决策场景中的应用渗透率正迎来显著提升。数据显示,今年“五一”假期期间,飞猪平台上的AI智能旅游顾问咨询量,在清明假期的高基数上持续走高,环比增幅高达56%。这一现象清晰地表明,“来自
如果要问哪个群体对生成式AI的抵触情绪最强烈,除了那些真正被AI取代了岗位的人,资深游戏玩家恐怕能排得上号。过去几年里,因为使用AI生成内容而遭到玩家社区抵制的游戏案例层出不穷。玩家对AI的排斥,几乎成了一种本能反应。 为了安抚玩家情绪,游戏开发商与制作人们可谓煞费苦心。《影之刃零》的制作人梁其伟就
Chrome148版本更新后,删除了此前关于“无需将数据发送至谷歌服务器”的明确承诺,改为更笼统的表述。谷歌回应称,此举仅为避免用户混淆,处理方式未变,数据仍在设备端处理。但修改也提示用户需注意“设备端处理”宣传可能存在的边界与例外。
人工智能对全球经济的冲击波,恐怕只会越来越强——从工作岗位的悄然流失,到国民财富从劳动向资本的转移。面对这些巨大的不确定性,美国业界的一些声音开始重新打量一个“老熟人”:对人工智能的算力征税。 是不是觉得似曾相识?没错,早在2017年,远在ChatGPT和Claude Code成为街头巷议的热词之前
近日,智能应用领域再次出现一起引发广泛关注的“AI翻车”事件。有用户在社交媒体上反映,在使用“飞鸭AI记账”App记录一笔为父亲购置衣物的消费时,不仅未获得预期的便捷服务,反而遭遇了AI的失当言论。用户输入消费金额159元后,该记账AI未遵循常规的记账确认流程,竟对衣物款式发表了不当类比,称其“看起
热门专题
热门推荐
初次接触赛车模拟器,或是观看职业赛事的方向盘特写镜头,你一定会被那些密集排列的旋钮与按键所吸引。这绝非单纯的视觉装饰,每一个控件都承载着在毫秒间精准调控车辆动态的关键使命。从牵引力控制到刹车平衡,从引擎图谱到实时数据,这些为极速盲操而生的设计,正是区分业余爱好者与专业车手的重要标志。熟练掌握其功能并
本文介绍了在OKX欧易平台首次购买USDT的完整流程,重点强调了入金、下单、划转三个关键步骤的正确顺序。内容涵盖了从法币充值到币币交易,再到资产划转至资金账户的详细操作与注意事项,旨在帮助新手用户理清逻辑,避免因操作顺序错误导致交易失败或资金滞留,实现顺畅的首次加密货币购买体验。
Dota 2 7 41c版本现已更新,对于希望使用五号位英雄上分的玩家而言,当前环境中有几位英雄的表现尤为突出。根据Yandex战队职业选手Malady在最新视频中的深度解析,发条技师、工程师以及树精卫士,均是此版本中极具上分潜力的强势辅助选择。 除了分享强势辅助英雄推荐,Malady也透露了队伍近
近日,一则关于2026年电竞世界杯可能更换举办地的消息在电竞社区引发热议。据独联体知名爆料人harumi透露,原定于沙特阿拉伯利雅得举行的本届赛事,存在将主办地转移至法国的可能性。这一潜在变动,无疑为这项全球顶级电竞赛事的最终落地增添了新的看点与悬念。 目前,电竞世界杯赛事组委会尚未对此传闻发布任何
本文介绍了在访问OKX(欧易)平台时,如何准确识别其官方网站、帮助中心及处理页面跳转问题。重点分析了官方域名的核心特征与常见后缀,并提供了遇到非官方页面时的安全验证步骤与处理建议,旨在帮助用户有效规避风险,确保资产与信息安全。





