游乐游手机版

AI热词解释列表页

首页/AI热词解释

AI 热词解释

输入一个热词,快速查看术语含义、常见场景和相关概念。

工具入口

热词列表

集中展示常见热词解释,方便按概念和场景继续浏览。

热词解释 · 2026-06-01

DPO:直接偏好优化,让AI更懂你的偏好

DPO(Direct Preference Optimization)是一种新兴的AI模型对齐技术,通过直接利用人类偏好数据优化模型,省去了传统RLHF中的奖励模型训练和强化学习步骤,让语言模型更快速学习用户喜欢的回答风格。

热门热词

近期常被查询的 AI 概念。