输入一个热词,快速查看术语含义、常见场景和相关概念。
集中展示常见热词解释,方便按概念和场景继续浏览。
ORPO(Odds Ratio Preference Optimization)是一种新的大模型对齐技术,通过直接优化人类偏好数据的几率比,省去传统RLHF中的奖励模型,实现更高效、更稳定的模型行为对齐。
近期常被查询的 AI 概念。