Agent时代好答案评分标准综述_AI热点日报

Agent时代好答案评分标准综述

类型：热点整理2026-06-01

随着大模型转向复杂开放任务，传统单一指标难以评估输出质量。Rubrics将“好答案”拆解为事实正确性、覆盖度、证据支撑等多维度可评判项，提供可解释的质量标准，用于训练与评测，成为连接人类期望与模型行为的重要接口。

最初，大模型的任务其实相当单纯，无非是回答提问、编写代码、求解数学题。那时评估模型质量也比较直接——有标准答案就比对答案，代码通过测试用例跑一遍，数学题看最终结果是否正确即可。准确率、执行成功率这些指标，既能直接用作训练信号，也能用于评测场景。

但近两年来，情况发生了根本性变化。大模型开始承担更复杂、更开放且风险更高的任务——比如自动搜索资料撰写研究报告，在医疗、法律、金融等专业领域给出分析意见，或者一边调用工具一边完成多步骤操作。随之而来的问题是：我们究竟应该如何衡量模型输出的质量？

在许多真实应用场景中，既没有标准答案，也没有明确的信号可以验证模型输出的正确性。比如评估一份Deep Research报告，传统做法可能是将生成报告与参考报告进行文本比对，或者让大模型打一个总体分数了事。但问题在于，一份好报告未必非要与参考报告写得一模一样；用一个笼统的分数来概括报告的好坏，更是几乎不可能。它好不好，必须从多个维度来评判——是否回答了用户的核心问题？是否覆盖了关键信息？引用的证据是否可靠？论证是否清晰？结论是否具备实际价值？

这正是Rubrics发挥作用的地方。它把那些模糊的“好报告”标准，拆解成一个个明确可评价的项。评审者——无论是人还是评判模型——都可以逐项检查、逐项打分。这样一来，不仅能判断报告的整体质量，还能精准指出问题所在：是覆盖不足，还是证据不充分，或者逻辑链条不顺。这些细粒度的反馈，反过来又能变成训练信号，帮助模型有针对性地优化。

换个角度看，大模型的训练与评测，正从过去那种“只关心对不对”的单一信号，转向多维度、可解释的质量标准。Rubrics，正在成为连接人类期望、任务要求和模型行为之间的重要接口。

最近，中国人民大学高瓴人工智能学院的研究团队发布了一篇综述论文——《The Rules of the Game: A Survey of Rubrics for Large Language Models》。论文正文共40页，系统梳理了Rubrics在大模型中的定义、构建方法、训练应用、评测场景以及当前面临的开放挑战。论文还维护了一个持续更新的GitHub项目，方便社区跟踪这一快速发展方向。

论文标题：The Rules of the Game: A Survey of Rubrics for Large Language Models
论文链接1：https://8421bcd.github.io/_pages/Rubrics_Survey.pdf
论文链接2：http://playbigdata.ruc.edu.cn/dou/publication/Rubrics_Survey.pdf
GitHub 阅读列表：https://github.com/RUC-NLPIR/Rubrics_Survey

为什么现在需要 Rubrics？

早期的大模型任务，输入输出形式相对清晰，答案正确性也容易评估。问答任务直接比对标准答案，代码任务跑测试用例，数学任务验证最终结果即可。这些任务使用准确率、执行成功率或者规则化的奖励，确实能直接提供训练和评测信号。

但随着模型能力的扩展，任务难度也随之显著提升。如今大模型被要求完成更开放、更高风险、更复杂的任务，比如自动搜索资料生成研究报告，在医疗、法律、金融等专业领域给出分析，调用外部工具完成多步操作，甚至在多模态场景中生成或理解复杂内容。此时，输出质量不再由单一答案决定，而是由多个维度共同决定。

因此Rubrics的价值正体现在这里——它把“好答案”拆解成一组明确的评价项：事实正确性、覆盖度、证据支撑、推理严谨性、安全性、格式合规性、实际可用性，一个都不能少。评测者可以逐项打分，也可将这些分数聚合后得到最终结果。相比那个黑箱式的笼统分数，Rubrics提供的是可检查、可调整、可诊断的质量标准。

来源：https://www.163.com/dy/article/KU9CG1HL0511AQHO.html

算法

延伸阅读

补充最近整理过的热点入口。