输入一个热词,快速查看术语含义、常见场景和相关概念。
集中展示常见热词解释,方便按概念和场景继续浏览。
人类反馈强化学习是一种通过收集人类对AI输出的偏好或评分,来训练和优化AI模型行为的方法。它让AI不仅能完成任务,更能以符合人类价值观和期望的方式完成任务,是当前大语言模型对齐和优化的核心技术。
近期常被查询的 AI 概念。