本次查询:KTO
中文解释:卡尼曼-特沃斯基优化
常见场景:大语言模型训练与对齐
一句话解释
KTO是一种基于前景理论(Prospect Theory)的大语言模型偏好优化算法,它用人类面对收益和损失时的非对称心理权重来设计损失函数,从而更自然地模拟人类的偏好判断。
为什么会被关注
传统对齐方法(如RLHF)需要成对偏好数据,收集成本高且容易引入噪声。KTO只需要单一响应是否被接受(好/坏标签),数据要求更简单。
同时,KTO借鉴了卡尼曼和特沃斯基的前景理论,能够捕捉人类对'坏结果'的强烈厌恶,在安全性和有用性平衡上表现出色,因此受到学术界和工业界的关注。
核心逻辑
KTO的核心思想是:将模型输出的每个token视为一个'收益'或'损失',参照一个参考模型(通常是原始基座模型)的输出概率,计算相对优势。
它引入了一个参考点(reference point),当模型输出优于参考时视为收益,劣于参考时视为损失。损失部分的惩罚权重高于收益部分的奖励权重,体现人类'损失厌恶'心理。
训练时,KTO只依赖二元反馈(好/坏),无需成对比较,通过优化对数概率的加权和来更新模型参数,最终使模型倾向生成被人类判定为'好'的响应。
常见场景
大语言模型的科学与安全对齐:如ChatGPT、Claude等对话机器人的微调阶段,用KTO代替RLHF或DPO,减少标注数据量。
内容审核与安全性提升:针对有毒、有害内容的抑制训练,利用KTO对'坏'输出的高惩罚来快速降低生成风险。
个性化偏好建模:当需要根据单个用户点赞/踩的二元反馈微调模型时,KTO比成对方法更高效。
容易混淆的点
KTO与DPO(直接偏好优化)区别:DPO需要成对偏好数据(A好于B),KTO只需要单个样本的好/坏标签。DPO的数学推导基于Bradley-Terry模型,而KTO基于前景理论的效用函数。
KTO与RLHF区别:RLHF需要训练一个奖励模型,然后通过强化学习优化;KTO直接通过损失函数隐式完成对齐,训练流程更简洁。
KTO与损失厌恶:KTO并非简单的给负样本增加权重,而是通过非线性的reference-point变换来模拟人类决策心理,数学形式更复杂。
