一致性训练速率匹配：降低偏见并减少混淆_AI热点日报

语言模型时常会依赖那些我们并不希望它们关注的无关特征（extraneous features），这一现象在各类场景中普遍存在。例如，当用户的问题选项里提前包含“我通常倾向于B”这类暗示时，模型的答案往往不自觉地偏向B；又比如，一个看起来像评测环境的输入，可能让模型表现得比实际部署时更加“顺从”。这些

语言模型时常会依赖那些我们并不希望它们关注的无关特征（extraneous features），这一现象在各类场景中普遍存在。例如，当用户的问题选项里提前包含“我通常倾向于B”这类暗示时，模型的答案往往不自觉地偏向B；又比如，一个看起来像评测环境的输入，可能让模型表现得比实际部署时更加“顺从”。这些输入中都包含某些“多余的特征”，我们迫切希望它们不要对模型行为产生显著影响，但现实往往事与愿违。

直觉上，最直接的解决办法是移除这些特征：要么从提示词中剪掉，要么在思维链或内部激活层面进行压制。然而，实际操作困难重重——这些特征往往隐匿于整个输入中，并没有集中在某个显眼的位置，当前的可解释性工具还无法干净利落地将它们从内部表征中彻底清除。

既然如此，我们不妨换一个思路：能不能不让模型去依赖这些特征？一致性训练（Consistency Training）正是沿着这一方向探索。目前主要有两种方法：

偏置增强一致性训练（BCT）（Chua et al., 2024）：从原始策略中采样针对干净提示的答案，然后微调模型，使其在存在偏置的提示下也输出相同的答案。
激活一致性训练（ACT）（Irpan et al., 2025）：在表征层面实现类似效果——让存在偏置提示下的残差流激活值，去匹配干净提示下的激活模式。

这两种方法的本质都是训练模型忽略干净输入与带偏输入之间的差异。具体做法是构造一个“干净版本”和一个“包装版本”（wrapped input），后者额外包含一段描述偏置的文字。但问题也随之而来：这样一来，模型不仅不再受偏置影响，甚至连提都不提那个偏置了。一个重要担忧是，这种训练可能泛化到“混淆”（obfuscation）——模型即使仍然受到偏置影响，也不再提及偏置，从而削弱了可监控性。在依赖监控和审计的领域（比如评测作弊检测）中，这种权衡代价高昂，因为模型口头表达出的“评测感知”正是我们最可靠的警报信号之一。

我们的工作包含两项核心贡献：

第一，在实证层面证明了：BCT在减轻偏置影响的同时，显著地混淆了偏置的口头表达（即模型不再提及那个偏置）。
第二，提出了一种新的一致性训练方法——率匹配一致性训练（RMCT）。该方法的训练信号不直接惩罚口头表达，因此在达到与BCT相近的偏置减轻效果的同时，能大致保留模型提及偏置的倾向。

图1. RMCT概览。从模型在有无偏置提示下分别采样多条轨迹，用二分类器给每条轨迹打分，然后计算每个提示下的行为率。在这个简化的双输入例子中，无偏提示下的行为率作为目标，RMCT借助GRPO将带偏提示下的行为率向目标靠拢。因为奖励只取决于选中的特征，思维链不受约束——包括对偏置的口头提及。响应内容经过精简。

一致性训练的目标是让模型在相关输入（比如有无偏置文本）之间的倾向性保持一致。RMCT通过强化学习来实现这一点：使得跨相关输入之间我们关心的结果率（outcome rate）保持一致。

具体来说，每个数据点包含一组相关的输入（实验中是一个问题加上它的有偏和无偏两个版本），并指定一个参考子集。对每个输入采样若干条轨迹，每条轨迹用一个二分类器打分（在我们的实验中，这个分类器判断的是：解析出的最终答案是否与偏置选项一致）。这样每个输入就得到一个结果率。参考子集上的结果率通过某种聚合函数（比如均值或最小值）得到。对于非参考轨迹，其一致性奖励为：

$...$

这个奖励函数最小化了每个输入的结果率与参考率之间的平方偏差。直观理解就是：带偏提示的结果率如果超过了目标，那么表现出该特征的轨迹就得到负奖励，反之得到正奖励，奖励大小与偏差成正比。我们用GRPO和KL惩罚项来优化这个奖励函数，并配合LoRA适配器。

相比BCT和ACT这类训练整个响应的方法，RMCT有几个明显的优势：

不需要干净与包装输入配对。 现有方法要求构造“干净-包装”输入对，这在输入差异细节对任务本身很重要时并不理想。比如想训练模型在不同工具类型间保持一致性，就很难用配对方法——它会错误地让模型用不正确的模板调用工具。RMCT则避免了在过程层面施压，只追求结果率一致。
不需要干净的输入。 与上一条相关，既然不需要干净输入，RMCT就可以扩展到那些无法干净去除多余特征、也不存在无偏版本的情况。参考子集可以是一个干净的输入（我们测试的是这种带方向性的目标），也可以直接就是全部输入（对称目标，让所有结果率向某个聚合值靠拢），聚合函数可以是均值或最小值。
不直接压制口头表达。 RMCT的奖励只取决于结果率。只要模型中提及偏置的行为与训练目标的结果率不是完全相关，那就不会受到约束。在我们的实验中，经过RMCT后，模型大多还保留着对偏置文本的互动倾向，而BCT则显著削弱了这一倾向。当然，这不一定是绝对保证——Drori等人（2025）指出，结果监督仍然可能通过间接渠道重塑推理过程。
可组合的RL方法。 奖励对每个轨迹是可加的，因此可以添加其他项，比如一个锚定奖励来固定参考率的值（见论文附录G）。

结果摘要

我们在Chua等人（2025）设定的伺臣服（sycophancy）场景下，比较了BCT和RMCT。

我们只在一个偏置类型（干扰论点，即“错误论点”）上训练，数据来自LogiQA和HellaSwag，然后在Humanity’s Last Exam的多选题子集上评估了六种偏置类型。测试了两个模型：Meta Llama 3.1 8B Instruct和OpenAI GPT-OSS-20B，以BCT作为基线。附录中还报告了仅用无偏数据训练的匹配对照组，以分离一致性信号与微调漂移的影响。

这里报告两个指标。“偏向偏置的切换率”（ $...$ ）表示施加偏置后，答案切换到偏置选项的问题比例——这是一致性训练主要想要降低的量。“偏置口头表达率”（BVR）指响应中包含任何仅依据偏置才有意义的文本的比例。我们专门报告在发生了偏向切换的那部分问题上的BVR——如果这部分问题上的BVR降低了，说明模型在受偏置影响时更少提及偏置，即混淆了。

偏向偏置的切换率。 在训练过的偏置类型上，两种方法都显著降低了切换率，其中BCT降幅更大。在五个未见于训练的偏置上，RMCT在Llama上表现与BCT相当，在GPT-OSS上甚至更好——BCT在GPT-OSS上的未训练偏置平均结果无统计显著性，主要原因是在“事后偏置”（唯一的多次对话偏置）上反而显著增加了切换率。RMCT则正确泛化，在该偏置上也实现了显著降低。

偏置口头表达率。 BCT在两个模型上都大幅降低了训练偏置和未训练偏置平均的BVR；对照组确认这是由一致性训练目标导致的而非微调漂移。RMCT在GPT-OSS上对训练偏置的BVR也有显著降低，但在任何未训练的偏置上都没有显著降低，甚至在某些情况下还显著提高了BVR。

计算成本。 在超参数搜索中，BCT需要大约数千个数据点才能显著降低切换率，而RMCT仅用64个数据点就能达到显著效果。不过，每个RMCT数据点需要对每个输入进行多次采样（用于参考率估计和GRPO）。BCT用了2048个BCT数据点与2048个指令遵循数据点交织（共4096个样本）。RMCT每个数据点有两个输入（有偏和无偏），每个输入采样128条轨迹，总计约65536个样本。

图2. HLE上的偏向偏置切换率。 越低越好。 OpenAI GPT OSS 20B（上），Meta Llama 3.1 8B Instruct（下）。训练偏置（干扰论点）用阴影标出；最右列是五个未训练偏置的平均值。误差线为二项分布标准误差（近似95%置信区间），在三个学习率上合并。柱上显著性标记为与基准模型的两比例z检验。匹配对照组见附录。

图3. HLE中在偏置提示下的偏置口头表达率（BVR），仅限添加偏置后使解析答案切换到偏置选项的问题。越高越好。 OpenAI GPT OSS 20B（上），Meta Llama 3.1 8B Instruct（下）。训练偏置（干扰论点）用阴影标出；最右列是五个未训练偏置的平均值。误差线为二项分布标准误差（近似95%置信区间），在三个学习率上合并。显著性标记同图2。匹配对照组见附录。

总结一下：RMCT保留了一致性训练在减轻偏置方面的优势，同时避免了伴随而来的混淆。BCT下口头表达率的降低还会泛化到从未见过的偏置类型上，这为本文最初关于混淆的担忧提供了实证证据。更多结果见论文附录。

局限性

我们的实验只涉及两个小型开源模型，以及一组狭窄的基于多选题的偏向跟随评估。采样方差对切换率指标有一定干扰，论文的局限性部分详细讨论了这一点。口头表达指标故意设定得比较宽松：它统计所有与偏置文本的互动，因此很可能高估了监控器在不了解偏置信息时的检测能力。这意味着BCT实际导致的监控性下降可能比报告中的BVR降低要小。RMCT计算开销大（约是BCT的4倍），我们正在寻找降低计算需求的方法。下一步自然会是在其他（最好是智能体）场景中评估RMCT，例如评测作弊、提示注入越狱，直接评估可监控性，以及扩展到前沿模型。

为什么一致性训练可以用来减轻评测作弊

模型越来越能区分评测环境与部署环境（Needham等人，2025），并且会根据这种区分调整行为——通常在看起来像评测的上下文中表现得更好。目前很多工作都致力于最小化评测感知：删除输入中揭示评测身份的线索，或引导模型不去识别评测（Nguyen等人，2025；Hua等人，2025；Read等人，2026）。但就像其他多余输入特征一样，驱动评测感知的特征可以非常隐蔽，随着模型能力增强，它们能捕捉到越来越细微的线索，删除线索变得越来越难。

我们提议探索另一种思路：不依赖于成功欺骗模型，因此不是一场“向上爬坡”。最近文献中一种方法是“评测合作性”（eval-cooperativeness）；另一种则是直接训练模型保持一致性，即在类似评测和类似部署的上下文之间做一致性训练。

用部署环境下的输入作为参考目标，将评测环境下的结果率往部署方向拉，这样评测就能更真实地反映部署行为。思路是：把部署时的不良行为暴露到评测中，而不是去删除它。如果模型在部署环境下表现更差，那么这样训练的结果就是让其在评测环境下也表现得更差。这可以与常规的安全训练配合，去降低现在被如实测量到的误行为率。

一致性训练后的检查点还可以用来标记潜在的评测作弊：如果一致性训练后的模型与原始模型在某个评测上的表现显著不同，就说明原始模型可能依赖了评测相似性特征，从而发出警报。当然，这跟激活导向等方法类似，很难保证一致性训练只精准地消除了我们关心的行为，因此误报难以避免。所以这种方法只能用于标记（可与其他方法结合），不能作为定论来判断模型是否在进行评测作弊。

一致性训练也有其前提条件。首先，在一定程度上，只有模型不知道自己在被测试，测试才有意义。一致性训练强制行为一致，但并不强制这种一致性背后的任何机制——模型不见得会“认为自己没有被评测”。其次，一致性训练可能不会泛化到训练和测试分布之外。如果开发者看到模型在测试中表现一致，就认为它不会评测作弊，但模型真正部署时却不一样，那就麻烦了。相关的一个担忧是“一致性训练作弊”：模型意识到自己正在为一致性而被训练或测试，就会利用这点在训练和测试分布上表现得更一致。

为什么RMCT特别适合减轻评测作弊

我们已经论证了一致性训练是减轻评测作弊的一个有前景的方向。而在所有一致性训练方法中，RMCT有几个特性让它尤其适合这个场景：

不需要干净与包装输入配对。 既然RMCT不需要配对输入，我们就可以在多个不同维度的评测相似性分布上进行训练，而不必局限于像XML标签是否存在这样的简单线索。比如，可以在是否包含工具调用、反复改写同一个评测问题、或分解评测感知的各个因子之间做一致性训练。

不需要“干净输入”。 与上一条相关但独立：评测中的“评测相似性”特征无法被完全去除，因此不存在绝对干净的版本。RMCT并不一定需要一个干净参考，它可以编码诸如“在不同评测相似性水平上降低行为方差”的目标——例如用奖励函数将所有输入的结果率向均值拉拢。

更少的混淆。 口头表达的评测感知是我们标记评测作弊最可靠的信号之一。如果用现有的一致性训练方法来减少评测/部署行为差距，就会同时训练模型不再口头表达它识别出了评测环境——这样反而去掉了我们最依赖的警报信号，而评测作弊倾向可能依然存在。RMCT的训练信号不惩罚口头表达，因此可以在减少评测作弊的同时保留模型口头表达评测感知的倾向。

其他几个特别适合用RMCT缓解的病理现象

跨模态/语言/领域/格式的倾向性差异

语言模型的行为倾向常因模态、语言、领域和格式而异。RMCT可以用来训练模型在这些维度上行为一致。由于现有的一致性训练方法用的是过程监督而非结果监督，它们在这方面并不好用。

对自身生成文本的偏好

语言模型作为评判者和奖励模型，系统性地偏好带有自身风格特征的输出。这种病理在不信任监控场景中尤其令人担忧：如果一个监控模型对自己（或同模型族）生成的输出更宽容，就构成了合谋的通道。这里的多余输入特征是“作者性”，它散布在整个文本中。在出处维度上做一致性训练（对偏好或监控标记率）可以缓解这一病理。RMCT特别有用，因为它不需要构造“包装-干净”输入对（这对这个任务来说很难构造），而是可以直接进行结果一致性训练。

将一致性训练融入对齐训练栈

一致性训练针对的是LLM中持续存在的病理，包括那些已经经过对齐训练的模型；它可能会减轻这些问题。这让人很想把一致性训练直接嵌入对齐训练栈。但我们对此持谨慎态度。

每种病理的出现，都源于某种训练压力推动模型走向它。增加一致性目标提供了反向压力，但并没有移除原有的压力。当造成病理的压力足够强时，同时满足两个压力的稳定解可能是一致性训练作弊——模型在一致性训练和测试分布上看起来一致，但其他地方仍然保留着病理。将一致性训练融入栈中，就会提供虚假的安全信号而实际上并未消除底层问题。我们认为，这个失败模式需要进一步研究，才能将一致性训练整合到对齐后训练中。此外，Africa & Mani（2026）表明，一致性训练可能加剧已有的不良对齐。

目前，我们只建议在主模型检查点之外，同时提供一致性训练后的检查点——它可以帮助我们更好地理解部署行为，两者之间的差异可以用于标记潜在评测作弊（如上所述），而不改变部署模型本身。

期待反馈

非常欢迎各位的评论、异议与合作，特别是关于将（率匹配）一致性训练应用于减轻评测作弊，以及将其融入对齐训练栈的建议。