游乐游手机版
首页/AI热点日报/热点详情

Agent时代好答案评分标准综述

类型:热点整理2026-06-01
随着大模型转向复杂开放任务,传统单一指标难以评估输出质量。Rubrics将“好答案”拆解为事实正确性、覆盖度、证据支撑等多维度可评判项,提供可解释的质量标准,用于训练与评测,成为连接人类期望与模型行为的重要接口。



最初,大模型的任务其实相当单纯,无非是回答提问、编写代码、求解数学题。那时评估模型质量也比较直接——有标准答案就比对答案,代码通过测试用例跑一遍,数学题看最终结果是否正确即可。准确率、执行成功率这些指标,既能直接用作训练信号,也能用于评测场景。


但近两年来,情况发生了根本性变化。大模型开始承担更复杂、更开放且风险更高的任务——比如自动搜索资料撰写研究报告,在医疗、法律、金融等专业领域给出分析意见,或者一边调用工具一边完成多步骤操作。随之而来的问题是:我们究竟应该如何衡量模型输出的质量?


在许多真实应用场景中,既没有标准答案,也没有明确的信号可以验证模型输出的正确性。比如评估一份Deep Research报告,传统做法可能是将生成报告与参考报告进行文本比对,或者让大模型打一个总体分数了事。但问题在于,一份好报告未必非要与参考报告写得一模一样;用一个笼统的分数来概括报告的好坏,更是几乎不可能。它好不好,必须从多个维度来评判——是否回答了用户的核心问题?是否覆盖了关键信息?引用的证据是否可靠?论证是否清晰?结论是否具备实际价值?


这正是Rubrics发挥作用的地方。它把那些模糊的“好报告”标准,拆解成一个个明确可评价的项。评审者——无论是人还是评判模型——都可以逐项检查、逐项打分。这样一来,不仅能判断报告的整体质量,还能精准指出问题所在:是覆盖不足,还是证据不充分,或者逻辑链条不顺。这些细粒度的反馈,反过来又能变成训练信号,帮助模型有针对性地优化。


换个角度看,大模型的训练与评测,正从过去那种“只关心对不对”的单一信号,转向多维度、可解释的质量标准。Rubrics,正在成为连接人类期望、任务要求和模型行为之间的重要接口。


最近,中国人民大学高瓴人工智能学院的研究团队发布了一篇综述论文——《The Rules of the Game: A Survey of Rubrics for Large Language Models》。论文正文共40页,系统梳理了Rubrics在大模型中的定义、构建方法、训练应用、评测场景以及当前面临的开放挑战。论文还维护了一个持续更新的GitHub项目,方便社区跟踪这一快速发展方向。



论文标题:The Rules of the Game: A Survey of Rubrics for Large Language Models
论文链接1:https://8421bcd.github.io/_pages/Rubrics_Survey.pdf
论文链接2:http://playbigdata.ruc.edu.cn/dou/publication/Rubrics_Survey.pdf
GitHub 阅读列表:https://github.com/RUC-NLPIR/Rubrics_Survey

为什么现在需要 Rubrics?

早期的大模型任务,输入输出形式相对清晰,答案正确性也容易评估。问答任务直接比对标准答案,代码任务跑测试用例,数学任务验证最终结果即可。这些任务使用准确率、执行成功率或者规则化的奖励,确实能直接提供训练和评测信号。


但随着模型能力的扩展,任务难度也随之显著提升。如今大模型被要求完成更开放、更高风险、更复杂的任务,比如自动搜索资料生成研究报告,在医疗、法律、金融等专业领域给出分析,调用外部工具完成多步操作,甚至在多模态场景中生成或理解复杂内容。此时,输出质量不再由单一答案决定,而是由多个维度共同决定。


因此Rubrics的价值正体现在这里——它把“好答案”拆解成一组明确的评价项:事实正确性、覆盖度、证据支撑、推理严谨性、安全性、格式合规性、实际可用性,一个都不能少。评测者可以逐项打分,也可将这些分数聚合后得到最终结果。相比那个黑箱式的笼统分数,Rubrics提供的是可检查、可调整、可诊断的质量标准。

来源:https://www.163.com/dy/article/KU9CG1HL0511AQHO.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。