正则化微调实现大语言模型解毒方法探索

时间：2026-06-06 16:13

提出一种正则化微调方法，通过辅助模型监控输出毒性，并行化算法降低时间成本，自适应正则化防止灾难性遗忘。在Llama-7B和Falcon-7B上实验，该法在满足毒性控制标准的同时，整体上比强化学习和过滤方法更好地保持模型性能，且生成质量与基础模型接近。

大语言模型在各类任务中展现了卓越性能，但有时也会生成不当、不安全甚至带有偏见的输出。一个经过充分训练的大语言模型，在生成回复时应严格遵循创建者为其设定的“规则”。例如，开发者可能希望模型能够自我约束，避免输出有害内容。在技术领域，这正是属性控制发挥作用的地方——它用于调控模型输出中的某一特定属性。

在EMNLP 2024上发表的一篇论文中，研究者提出了一种新方法：在保持模型原有性能的同时，使其能够严格遵守一系列约束条件。首先需要明确，一个“训练成功”的大语言模型究竟需要满足哪些标准？

第一，必须实现属性控制，即输出内容应符合创建者的策略；第二，实用性需得到保证，在各项基准测试中，性能不应与原始模型差距过大；第三，训练效率也不可忽视，微调成本应与常规微调基本持平。

这项工作的灵感源于约束驱动学习和后验正则化等经典思想。核心思路是强制模型的输出服从某个特定分布。具体流程如下：先训练一个辅助模型，专门监测某个输出属性（论文中以毒性为例）。在微调过程中，该辅助模型会估算当前状态下最接近约束条件的分布，然后计算这个估算分布与模型当前实际分布之间的差异——差异越大，惩罚越重。

最直接的做法是反复迭代，逐步将模型推向“安全区域”，使估算越来越精确。但这种方式是顺序执行的，运行时间会显著增加。为此，论文还提出了一种并行化算法：基于上一轮迭代的状态，同时更新基础大语言模型和正则化器。实验表明，这种并行版本能够达到与顺序微调相同的性能，同时时间复杂度与常规微调相当。

为进一步提升性能并防止灾难性遗忘，研究者还尝试了自适应正则化——即在训练数据中与任务相关的部分，采用领域特定的正则化器。

保持实用性

在实验中，他们对Llama-7B和Falcon-7B两个模型进行了微调，使用混合语料库：一半是有毒回复的ToxiGen，一半是通用语料库Wikitext。结果显示，采用自适应正则化器的情况下，该方法在满足毒性控制标准的同时，整体上比强化学习和过滤等标准方法更好地保持了模型性能。

毒性控制下的基准性能

模型	ToxiGen（越低越好）	MMLU（5-shot，越高越好）	常识推理（0-shot，越高越好）
Llama-7B
基线	23	35.1	75.6
过滤	21.9	34.6	75.1
强化学习	15.2	33.6	73.2
NADO解码	15.2	31.1	71.4
本文方法（无自适应）	15.2	30.4	71.9
本文方法（带自适应）	14.2	33.9	73.6
Falcon-7B
基线	14	27.2	76.1
过滤	13.6	26.4	74.9
强化学习	9.8	25.4	74.4
NADO解码	7.3	23.6	72.5
本文方法（无自适应）	7.1	23.1	71.8
本文方法（带自适应）	7.3	26.1	74.5

保持生成质量

使用OPT-30B模型作为评估器时发现，该方法生成的序列在质量上与基础模型几乎没有差异。这表明生成质量得到了有效保持。而且，该模型的表现优于通过过滤和强化学习训练的模型。

对基线的胜率

	基线	过滤	强化学习	本文方法
基线	N/A	44.3	45.1	51.4
过滤	55.7	N/A	53.4	61.6
强化学习	54.9	46.6	N/A	61.3
本文方法	48.6	38.4	38.7	N/A

毒性分类与生成

该方法最有趣的特性之一，是它允许大语言模型从有毒内容中“学习”，却不会染上不良习惯。实验中，他们使用Jigsaw有毒内容数据集对Llama-7B进行毒性分类任务的微调。结果很有意思：采用标准监督微调时，模型在分类任务上确实表现更好，但接触的有毒内容增多，反而更容易生成有毒内容。而采用本文方法后，分类性能提升的同时，生成的毒性反而下降。