香港科技大学揭示AI对齐捷径隐患安全风险需警惕_AI热点日报

这项由香港科技大学、LIGHTSPEED及香港浸会大学联合开展的研究，发表于2026年第43届国际机器学习大会（ICML 2026），论文编号为arXiv:2605 20834v1，发布于2026年5月20日。如何让AI变得更安全、更符合人类意图，是人工智能发展的核心挑战。然而，一项最新研究揭示，

这项由香港科技大学、LIGHTSPEED及香港浸会大学联合开展的研究，发表于2026年第43届国际机器学习大会（ICML 2026），论文编号为arXiv:2605.20834v1，发布于2026年5月20日。

香港科技大学等机构揭秘：你以为AI对齐的

如何让AI变得更安全、更符合人类意图，是人工智能发展的核心挑战。然而，一项最新研究揭示，一个被广泛采纳的“捷径”方法背后，潜藏着可能导致AI行为偏离预期的系统性风险。

一、从“驯服AI”说起：为什么AI对齐这么难

要理解这项研究的突破性，首先需要明确“AI对齐”这一根本性难题。所谓对齐，即确保人工智能系统的目标、行为和输出与人类的价值观、意图及利益保持一致。

以大语言模型为例，经过海量数据预训练的模型并不天然懂得何为“恰当”或“有益”的回答。目前，业界主流的解决方案是“基于人类反馈的强化学习”。该方法逻辑清晰：收集人类对AI回答的偏好数据，训练一个独立的奖励模型来打分，再通过复杂的强化学习算法迭代优化AI策略。

RLHF虽有效，但存在显著瓶颈：需要训练和维护独立的奖励模型，强化学习过程计算开销巨大且训练不稳定。这就像同时协调一位标准严苛的评委和一位不断试错的学员，确保两者目标始终同步极具挑战。

正因如此，2023年提出的“直接偏好优化”方法迅速受到青睐。其核心优势极具吸引力：通过巧妙的数学重构，完全绕开了奖励模型和复杂的强化学习循环，直接利用偏好数据对模型进行微调。最关键的是，DPO在理论上被证明与传统的RLHF流程是“等价”的——效果相近，但实现却简单得多。

然而，这项联合研究的起点，正是对“DPO与RLHF完全等价”这一核心论断提出了根本性质疑。研究团队发现，两者间的等价关系依赖于一个关键的前提假设。而这一假设在实际应用场景中经常无法满足，却长期未被深入检视，从而埋下了隐患。

二、一个被隐藏的假设：数学等价性中的隐形陷阱

为了厘清问题本质，我们可以借助一个“厨师学艺”的比喻。

RLHF好比一套完整的师徒教学体系：由美食家（奖励模型）品尝菜品后给出评分，学徒厨师（AI策略）根据评分反馈不断调整烹饪手法，终极目标是做出最令美食家满意的菜肴。流程严谨，但环节繁琐。

DPO则声称：无需美食家介入，只需给学徒厨师看大量“食客认为A菜优于B菜”的历史记录，厨师就能自行领悟并提升厨艺。在数学上，它通过一个精巧的变量代换，将“美食家评分”这个中间环节从方程中消除了。

问题的症结恰恰在于这个“代换”。研究团队严格证明，该代换成立的前提是：那个由RLHF训练出的“最优学徒厨师”，其直觉判断必须与食客的真实偏好方向完全一致。具体而言，当食客更青睐A菜时，RLHF得到的最优策略必须为A菜分配比B菜更高的生成概率。这在论文中被称为“DPO的隐含假设”。

这听起来似乎理所当然？一个最优厨师，理应更擅长制作受食客欢迎的菜品。但严密的数学分析表明，这一“直觉”在RLHF的框架下无法得到保证。

根源在于RLHF的优化目标具有双重性：一方面要最大化来自奖励模型的预期回报（做出受欢迎的菜），另一方面则要约束策略“偏离初始厨师风格的程度”（通过KL散度惩罚项确保训练稳定性）。当作为起点的参考策略（即初始厨师风格，通常是经过SFT微调的模型）本身就极度不擅长烹饪A菜时，后一个约束会像一根强力橡皮筋，将学徒拉回原有的错误习惯。最终，即便奖励模型明确指示A菜更优，最优策略仍可能倾向于给B菜更高的概率。

换言之，当参考策略存在足够强的“偏见”时，RLHF产出的最优策略也可能在部分偏好对上做出“错误选择”。而DPO的整个数学推导，都建立在“最优策略永远做出正确选择”这一脆弱假设之上。一旦假设崩塌，DPO的理论基础便出现裂痕。

三、假设失效的后果：AI在训练中悄然偏离正轨

研究团队不仅指出了假设可能失效，更深入剖析了失效后带来的具体风险，结论发人深省。

延续之前的比喻。当参考厨师严重偏爱B菜（错误答案），而RLHF的最优策略因平衡约束也倾向于B菜时，DPO所执行的任务就发生了畸变：它不再要求学徒学会“A比B更好”这一绝对标准，而是要求他“做得比那个糟糕的参考厨师稍微好一点点即可”。

这是两个天差地别的优化目标。前者追求“绝对对齐”，后者仅是“相对改进”。当参考策略本身就是一个反面教材时，“比它好一点”的结果可能依然远未达到人类期望。

更严峻的是，从优化动力学的梯度角度分析，在这种情况下会出现“渐进性梯度消失”。DPO训练信号的强度由sigmoid函数调控，当策略试图从参考策略的错误偏好向正确方向移动时，梯度信号反而会越来越微弱。最终，策略可能被困在一个“半吊子”的局部最优状态——它确实比参考策略略有进步，但依然对人类不喜欢的答案赋予更高概率。而讽刺的是，DPO的损失函数值却在持续下降，给训练者营造出一种“一切顺利、持续优化”的假象。

研究团队将这个危险的区域命名为“不良解空间”。处于此空间的策略满足两个条件：相比参考策略，它更偏向人类喜欢的答案；但在绝对意义上，它仍然选择了错误的答案。DPO的梯度会将策略推入这个空间，随后因梯度消失而将其困在其中。

这好比训练一位学徒，他的师父（参考策略）烹饪的鱼肉腥味极重。你的训练指令是“只要比师父做得好一点就行”。学徒经过努力，做出的鱼确实腥味稍减，但依然令人难以下咽。而你的训练进度表（DPO损失曲线）却持续显示“成绩优异”，让你误以为教学正在迈向成功。

四、问题的普遍性：这并非罕见的极端案例

或许有人认为，这种参考策略严重偏离的情况在实际应用中应属少数。毕竟，参考策略通常是经过初步指令微调的模型，质量理应有所保障。

研究团队提供的实验数据给出了清醒的答案。他们在成熟的Llama-3-8B-Instruct模型上，使用真实的偏好数据集进行测量。结果发现，DPO所依赖的隐含假设，在高达45.5%的偏好数据对上都不成立。

这绝非边缘案例，而是普遍存在的现象。进一步量化分析显示，奖励信号对参考策略偏差的平均修正能力仅为0.20，而参考策略自身对数概率比的标准差高达46.69。这意味着，奖励信号的修正力度，远远不足以抵消参考策略自身存在的巨大初始偏差。

为了验证理论的普适性，团队还主动“污染”了参考策略。他们使用不同比例（20%、30%、40%）的“坏样本”（故意颠倒偏好数据中的好坏标签）来训练参考策略，使其性能劣化。实验结果与理论预测高度吻合：随着污染比例上升，假设违反率从52.9%攀升至60.0%，同时DPO在AlpacaEval 2基准测试上的性能持续低迷。这清晰地表明，参考策略质量越差，DPO的理论漏洞暴露得越充分，其实际对齐效果也大打折扣。

五、CPO方案：为RLHF框架装上理论安全锁

在精准诊断问题之后，研究团队提出了创新的解决方案：“约束偏好优化”。

CPO的核心思想直接而有力：既然DPO的问题根源在于RLHF的最优策略可能“选错边”，那么就在RLHF的原始优化目标中，直接增加一条硬性约束——强制要求最优策略必须对人类偏好的答案赋予更高的生成概率，毫无例外。

回到比喻：CPO就是在原有教学目标之外，额外明确规定“无论如何，制作A菜的概率必须高于B菜”。用数学语言表述，是在RLHF的目标函数上增加了一个由超参数γ控制的“对数概率差”惩罚项。

CPO从理论上保证了“绝对优势”：当γ值设置得足够大时，训练得到的最优策略必然满足“对人类偏好的答案给出更高概率”这一关键条件。该阈值的计算公式明确，取决于参考策略的偏差程度和奖励信号的强度。

同时，CPO的梯度动力学行为也得到了根本性改善。其梯度中包含一个额外的自适应边距项，当参考策略偏差严重时，该项会自动增大，从而确保即使策略处于“不良解空间”的边缘，也有足够强大的梯度将其推离危险区域。

在工程实现上，CPO方案非常优雅。每个训练样本都有一个预先计算好的“自适应边距”，其大小与参考策略对该样本的偏好强度成反比。这一设计的精妙之处在于：它对“困难样本”（即参考策略严重不看好正确答案的样本）自动赋予更大的修正力度，对“简单样本”则减小干预，实现了一种自然的“难样本优先”学习机制。整个计算仅在训练开始前进行一次前向推理并缓存结果，之后几乎不增加任何额外开销，保持了与DPO相近的简洁高效特性。

六、E-CPOC方案：追求更严格理论保证的进阶选择

CPO解决了核心问题，但它仍依赖于超参数γ的选取，并且使用参考策略的概率来近似最优策略的概率。为此，研究团队进一步推导出一个理论更为完备的变体：“保守显式约束偏好优化”。

E-CPOC的思路更为彻底：与其通过软性惩罚项进行鼓励，不如直接用硬性约束强制要求策略对好答案与坏答案的概率差必须超过某个正数γ。通过运用约束优化理论，可以推导出一个优美的结论：RLHF最优策略的“对数概率差”可以分解为三项之和。

其中第三项是一个自适应边距函数Φ，它由参考策略的偏差和约束强度共同决定。挑战在于，精确计算Φ需要知道真实的奖励差异，而这通常是未知的。研究团队巧妙地利用了一个单调性质：Φ函数随着奖励差异的增大而减小。既然偏好数据本身意味着奖励差异大于零，那么取奖励差异趋近于零时的Φ值作为保守上界，就得到了一个完全不需要奖励模型、仅依赖于参考策略属性的边距值。

使用这个保守边距，E-CPOC得到的策略会比真实的约束RLHF最优策略更“保守”（即更安全），但这提供了一个严格的理论性能上界。从梯度视角看，E-CPOC实现了自然的“难样本聚焦”效应：参考策略偏差越严重的样本，获得的梯度权重越高，学习信号越强；对于参考策略已经处理得很好的样本，其行为则退化为标准DPO，避免了过度正则化。

七、几何视角解读：DPO究竟在优化什么目标

研究团队还提供了一个直观的几何解释，帮助我们从根本上理解DPO问题的本质。

在排序任务中，经典的“边距排序损失”要求好答案的得分要比坏答案高出至少一个目标边距m。研究团队证明，当温度参数β趋向无穷大时，DPO损失函数实际上等价于这样一个排序损失，而其目标边距m恰好等于参考策略的对数概率差。

这就揭示了问题的几何本质：当参考策略更偏爱坏答案时，DPO实际上是在要求学习策略“让坏答案比好答案好出一定幅度”时才触发损失。一个负的目标边距意味着，即使学习策略仍然给坏答案分配更高的概率，只要两者的差值还没超过这个负数的绝对值，DPO的损失就已经降为零，训练便会提前“满足”而停止优化。

CPO通过引入超参数γ，将目标边距提升至一个恒为正的值。E-CPOC则通过其保守边距函数提供自适应的正边距。通俗地讲，DPO可能在要求“坏答案允许比好答案稍差一点”时就宣告优化完成，而CPO和E-CPOC则始终要求“好答案必须显著优于坏答案”才算达标。

八、实验验证：理论落地，性能表现卓越

在完成严密的理论分析后，研究团队在标准评测基准上全面验证了CPO的实际效果。

实验以Llama-3-8B-Instruct为基础模型，使用主流开源偏好数据集进行对齐训练，并在AlpacaEval 2和Arena-Hard等权威基准上进行评估。后者包含了更多具有挑战性的复杂问题，对模型能力的区分度更高。

在AlpacaEval 2上，CPO取得了25.15%的胜率，全面超越了DPO的24.60%和另一种流行方法SimPO的25.91%（长度控制后），且平均回答长度相近，证明其性能提升并非依靠生成长文本“刷分”。

在更具挑战性的Arena-Hard基准上，CPO的优势更为明显，取得了32.6%的胜率，分别比SimPO和DPO高出2.6和3.7个百分点。这表明CPO在处理复杂、困难问题上的能力有实质性提升。

此外，在精确指令跟随评估基准IFEval上，CPO同样表现领先，验证了其性能增益不局限于对话流畅度，也延伸到了精确遵循复杂指令的能力。

超参数敏感性测试表明，γ在0.20到0.40的合理范围内，CPO性能表现稳定，在0.25时达到峰值。团队还对比了一种朴素解决方案：简单地将负的参考策略概率差裁剪为零后再应用DPO训练。该方法的性能远低于CPO，这说明CPO所采用的自适应边距机制带来的收益，远超简单地防止负边距这种粗糙处理。

九、严格的数学保证：E-CPOC与约束RLHF的等价性定理

这项研究在理论层面的另一个重要贡献，是建立并证明了E-CPOC与显式约束RLHF之间的严格等价定理。

该定理的成立条件温和且符合标准：偏好数据生成服从Bradley-Terry模型（领域标准假设）、策略函数类具备合理的近似能力、训练数据充足且独立同分布、以及训练策略在对数概率差空间上接近最优策略。

定理的核心结论是：E-CPOC算法得到的最优策略，其为好答案分配的概率，一定大于等于真实约束RLHF最优策略的概率。这意味着，E-CPOC在完全无需训练奖励模型的情况下，提供了比约束RLHF更保守（即更安全）的对齐保证——这不是一种近似，而是严格的理论上界。

归根结底，这项研究揭示了一个在工程实践中屡见不鲜的深刻教训：便捷工具的背后，往往隐藏着容易被忽略的严格适用条件。当条件不满足时，工具可能依然“正常运行”，却会在不知不觉中偏离既定目标。DPO便是如此——它在许多情况下表现良好，但其理论安全保证是有前提条件的，且该条件在近一半的实际训练样本中并不成立。

这项研究的价值，并非全盘否定DPO，而在于清晰划定了其安全适用的边界，并提供了一套计算成本几乎相同、但理论保证显著增强的可靠替代方案。CPO和E-CPOC在工程实现上与DPO同样简洁——仅需在训练前预计算一次边距，训练时执行一次减法——却从根本上堵住了可能导致AI行为悄然偏离的漏洞。

对于AI工业界而言，这意味着未来的大模型对齐技术可以在不显著增加计算开销和工程复杂度的前提下，获得更坚实可靠的数学安全保障。对于研究者和算法工程师，这则是一个明确的警示：在拥抱任何宣称“等价但更简单”的新方法时，务必审慎审视其依赖的潜在假设，并评估这些假设在真实世界数据中的成立程度。

Q&A

Q1：DPO和RLHF在理论上被证明等价，为什么在实际应用中DPO仍会出问题？

A：DPO与RLHF的等价性推导依赖于一个关键的隐含假设：即RLHF训练得到的最优策略，必须始终对人类偏好的答案赋予更高的生成概率。然而，RLHF的优化过程需要在“获取高奖励”和“保持与参考策略的接近度”之间进行权衡。当参考策略本身存在严重偏差、极度不看好正确答案时，RLHF的最优策略为了不过度偏离参考策略，仍可能选择错误答案，从而导致DPO的数学推导基础失效。实验表明，即使在经过充分优化的成熟指令模型上，这一假设在接近45%的训练样本中都不成立。

Q2：CPO相比DPO，增加了哪些额外的计算开销？

A：CPO引入的额外计算开销微乎其微。唯一的额外步骤是在训练开始前，使用参考策略对每个训练样本执行一次前向推理，计算并缓存一个名为“自适应边距”的值。值得注意的是，标准的DPO训练流程本身也需要这次前向推理来计算参考策略的对数概率。因此，CPO只是在此步骤上额外进行了两次标量除法和一次加法操作。在训练过程中的每次前向和反向传播中，CPO仅需从模型输出的logits中减去预缓存的边距值，其计算复杂度与DPO完全一致。

Q3：E-CPOC和CPO有什么区别？在实际项目中应如何选择？

A：两者都旨在解决DPO的核心理论缺陷，但设计哲学和保证强度不同。CPO采用“软约束”思路，通过在损失函数中添加惩罚项来鼓励模型满足对齐条件，实现简单，但需要调节一个超参数γ。E-CPOC采用“硬约束”思路，直接强制要求模型输出必须满足概率差约束，其边距是通过保守估计得到的自适应函数，能对困难样本自动施加更强修正，理论保证更严格，且与带约束的RLHF存在严格的等价关系。如果追求部署的简便性和一个可调的超参数，CPO是良好选择；如果项目需要最强的理论安全保障和自动的难样本聚焦能力，E-CPOC是更优的选择。