本次查询:训练后对齐
中文解释:训练后对齐
常见场景:大语言模型开发与部署
一句话解释
训练后对齐是指在大模型预训练完成后,通过一系列微调技术使模型输出更符合人类预期、价值观和安全标准的过程。
为什么会被关注
大模型虽然能力强大,但预训练数据中可能包含偏见、有害内容,导致模型产出不符合人类期望的结果。
训练后对齐能有效降低风险,提升模型的有用性和安全性,是AI产品落地的必要环节,因此成为研究热点。
核心逻辑
预训练模型只学到文本的统计规律,并不理解人类偏好。训练后对齐通过收集人类对模型输出的偏好反馈,调整模型参数,使其生成时倾向于被认可的响应。
常用方法包括基于人类反馈的强化学习(RLHF)和直接偏好优化(DPO),后者更简洁高效,无需独立奖励模型。
常见场景
在聊天机器人中,通过对齐使模型避免生成歧视、暴力等违规内容,提升对话体验。
在医疗咨询场景,对齐可确保模型输出符合医学伦理和专业知识,降低误导风险。
自动驾驶决策系统中,对齐用于约束模型选择安全、合规的操作路径。
容易混淆的点
容易与监督微调(SFT)混淆。SFT使用人工标注的指令-回答对进行学习,而训练后对齐更侧重从偏好反馈中学习,通常在SFT之后进行。
另一个误解是认为对齐等同于模型“变乖”,实则是在保留能力的同时调整行为倾向,并非简单压制模型创造力。
