大语言模型在各类任务中展现了卓越性能,但有时也会生成不当、不安全甚至带有偏见的输出。一个经过充分训练的大语言模型,在生成回复时应严格遵循创建者为其设定的“规则”。例如,开发者可能希望模型能够自我约束,避免输出有害内容。在技术领域,这正是属性控制发挥作用的地方——它用于调控模型输出中的某一特定属性。
在EMNLP 2024上发表的一篇论文中,研究者提出了一种新方法:在保持模型原有性能的同时,使其能够严格遵守一系列约束条件。首先需要明确,一个“训练成功”的大语言模型究竟需要满足哪些标准?
第一,必须实现属性控制,即输出内容应符合创建者的策略;第二,实用性需得到保证,在各项基准测试中,性能不应与原始模型差距过大;第三,训练效率也不可忽视,微调成本应与常规微调基本持平。
这项工作的灵感源于约束驱动学习和后验正则化等经典思想。核心思路是强制模型的输出服从某个特定分布。具体流程如下:先训练一个辅助模型,专门监测某个输出属性(论文中以毒性为例)。在微调过程中,该辅助模型会估算当前状态下最接近约束条件的分布,然后计算这个估算分布与模型当前实际分布之间的差异——差异越大,惩罚越重。
最直接的做法是反复迭代,逐步将模型推向“安全区域”,使估算越来越精确。但这种方式是顺序执行的,运行时间会显著增加。为此,论文还提出了一种并行化算法:基于上一轮迭代的状态,同时更新基础大语言模型和正则化器。实验表明,这种并行版本能够达到与顺序微调相同的性能,同时时间复杂度与常规微调相当。
为进一步提升性能并防止灾难性遗忘,研究者还尝试了自适应正则化——即在训练数据中与任务相关的部分,采用领域特定的正则化器。
保持实用性
在实验中,他们对Llama-7B和Falcon-7B两个模型进行了微调,使用混合语料库:一半是有毒回复的ToxiGen,一半是通用语料库Wikitext。结果显示,采用自适应正则化器的情况下,该方法在满足毒性控制标准的同时,整体上比强化学习和过滤等标准方法更好地保持了模型性能。
毒性控制下的基准性能
模型 | ToxiGen(越低越好) | MMLU(5-shot,越高越好) | 常识推理(0-shot,越高越好) |
|---|---|---|---|
Llama-7B | |||
基线 | 23 | 35.1 | 75.6 |
过滤 | 21.9 | 34.6 | 75.1 |
强化学习 | 15.2 | 33.6 | 73.2 |
NADO解码 | 15.2 | 31.1 | 71.4 |
本文方法(无自适应) | 15.2 | 30.4 | 71.9 |
本文方法(带自适应) | 14.2 | 33.9 | 73.6 |
Falcon-7B | |||
基线 | 14 | 27.2 | 76.1 |
过滤 | 13.6 | 26.4 | 74.9 |
强化学习 | 9.8 | 25.4 | 74.4 |
NADO解码 | 7.3 | 23.6 | 72.5 |
本文方法(无自适应) | 7.1 | 23.1 | 71.8 |
本文方法(带自适应) | 7.3 | 26.1 | 74.5 |
保持生成质量
使用OPT-30B模型作为评估器时发现,该方法生成的序列在质量上与基础模型几乎没有差异。这表明生成质量得到了有效保持。而且,该模型的表现优于通过过滤和强化学习训练的模型。
对基线的胜率
基线 | 过滤 | 强化学习 | 本文方法 | |
|---|---|---|---|---|
基线 | N/A | 44.3 | 45.1 | 51.4 |
过滤 | 55.7 | N/A | 53.4 | 61.6 |
强化学习 | 54.9 | 46.6 | N/A | 61.3 |
本文方法 | 48.6 | 38.4 | 38.7 | N/A |
毒性分类与生成
该方法最有趣的特性之一,是它允许大语言模型从有毒内容中“学习”,却不会染上不良习惯。实验中,他们使用Jigsaw有毒内容数据集对Llama-7B进行毒性分类任务的微调。结果很有意思:采用标准监督微调时,模型在分类任务上确实表现更好,但接触的有毒内容增多,反而更容易生成有毒内容。而采用本文方法后,分类性能提升的同时,生成的毒性反而下降。
Llama-7B模型在Jigsaw上的毒性控制性能
模型 | API毒性 | 分类ROC |
|---|---|---|
基线 | 0.315 | 0.910 |
监督微调(LLM损失) | 0.344 | 0.966 |
本文方法(LLM损失) | 0.288 | 0.959 |
监督微调(分类) | 0.314 | 0.972 |
致谢
感谢实习生Tao Meng(加州大学洛杉矶分校)主导了这项论文工作,以及共同作者Ninareh Mehrabi、Palash Goyal、Anil Ramakrishna、Aram Galstyan、Richard Zemel、Kai-Wei Chang和Rahul Gupta的贡献。
研究领域
对话式人工智能
标签
负责任人工智能、大语言模型
