输入一个热词,快速查看术语含义、常见场景和相关概念。
集中展示常见热词解释,方便按概念和场景继续浏览。
Reward Model(奖励模型)是强化学习中用来评估AI行为好坏的评分系统。在大模型训练中,它把人类偏好转化为分数,指导模型生成更符合预期的内容,是RLHF的核心组件。
近期常被查询的 AI 概念。