游乐游手机版
首页/AI教程/文章详情

正则化微调实现大语言模型解毒方法探索

时间:2026-06-06 16:13
提出一种正则化微调方法,通过辅助模型监控输出毒性,并行化算法降低时间成本,自适应正则化防止灾难性遗忘。在Llama-7B和Falcon-7B上实验,该法在满足毒性控制标准的同时,整体上比强化学习和过滤方法更好地保持模型性能,且生成质量与基础模型接近。

大语言模型在各类任务中展现了卓越性能,但有时也会生成不当、不安全甚至带有偏见的输出。一个经过充分训练的大语言模型,在生成回复时应严格遵循创建者为其设定的“规则”。例如,开发者可能希望模型能够自我约束,避免输出有害内容。在技术领域,这正是属性控制发挥作用的地方——它用于调控模型输出中的某一特定属性。

在EMNLP 2024上发表的一篇论文中,研究者提出了一种新方法:在保持模型原有性能的同时,使其能够严格遵守一系列约束条件。首先需要明确,一个“训练成功”的大语言模型究竟需要满足哪些标准?

第一,必须实现属性控制,即输出内容应符合创建者的策略;第二,实用性需得到保证,在各项基准测试中,性能不应与原始模型差距过大;第三,训练效率也不可忽视,微调成本应与常规微调基本持平。

这项工作的灵感源于约束驱动学习和后验正则化等经典思想。核心思路是强制模型的输出服从某个特定分布。具体流程如下:先训练一个辅助模型,专门监测某个输出属性(论文中以毒性为例)。在微调过程中,该辅助模型会估算当前状态下最接近约束条件的分布,然后计算这个估算分布与模型当前实际分布之间的差异——差异越大,惩罚越重。

最直接的做法是反复迭代,逐步将模型推向“安全区域”,使估算越来越精确。但这种方式是顺序执行的,运行时间会显著增加。为此,论文还提出了一种并行化算法:基于上一轮迭代的状态,同时更新基础大语言模型和正则化器。实验表明,这种并行版本能够达到与顺序微调相同的性能,同时时间复杂度与常规微调相当。

为进一步提升性能并防止灾难性遗忘,研究者还尝试了自适应正则化——即在训练数据中与任务相关的部分,采用领域特定的正则化器。

保持实用性

在实验中,他们对Llama-7B和Falcon-7B两个模型进行了微调,使用混合语料库:一半是有毒回复的ToxiGen,一半是通用语料库Wikitext。结果显示,采用自适应正则化器的情况下,该方法在满足毒性控制标准的同时,整体上比强化学习和过滤等标准方法更好地保持了模型性能。

毒性控制下的基准性能

模型

ToxiGen(越低越好)

MMLU(5-shot,越高越好)

常识推理(0-shot,越高越好)

Llama-7B

基线

23

35.1

75.6

过滤

21.9

34.6

75.1

强化学习

15.2

33.6

73.2

NADO解码

15.2

31.1

71.4

本文方法(无自适应)

15.2

30.4

71.9

本文方法(带自适应)

14.2

33.9

73.6

Falcon-7B

基线

14

27.2

76.1

过滤

13.6

26.4

74.9

强化学习

9.8

25.4

74.4

NADO解码

7.3

23.6

72.5

本文方法(无自适应)

7.1

23.1

71.8

本文方法(带自适应)

7.3

26.1

74.5

保持生成质量

使用OPT-30B模型作为评估器时发现,该方法生成的序列在质量上与基础模型几乎没有差异。这表明生成质量得到了有效保持。而且,该模型的表现优于通过过滤和强化学习训练的模型。

对基线的胜率

基线

过滤

强化学习

本文方法

基线

N/A

44.3

45.1

51.4

过滤

55.7

N/A

53.4

61.6

强化学习

54.9

46.6

N/A

61.3

本文方法

48.6

38.4

38.7

N/A

毒性分类与生成

该方法最有趣的特性之一,是它允许大语言模型从有毒内容中“学习”,却不会染上不良习惯。实验中,他们使用Jigsaw有毒内容数据集对Llama-7B进行毒性分类任务的微调。结果很有意思:采用标准监督微调时,模型在分类任务上确实表现更好,但接触的有毒内容增多,反而更容易生成有毒内容。而采用本文方法后,分类性能提升的同时,生成的毒性反而下降。

Llama-7B模型在Jigsaw上的毒性控制性能

模型

API毒性

分类ROC

基线

0.315

0.910

监督微调(LLM损失)

0.344

0.966

本文方法(LLM损失)

0.288

0.959

监督微调(分类)

0.314

0.972

致谢

感谢实习生Tao Meng(加州大学洛杉矶分校)主导了这项论文工作,以及共同作者Ninareh Mehrabi、Palash Goyal、Anil Ramakrishna、Aram Galstyan、Richard Zemel、Kai-Wei Chang和Rahul Gupta的贡献。

研究领域

对话式人工智能

标签

负责任人工智能、大语言模型

来源:https://cloud.tencent.com.cn/developer/article/2683044
上一篇Python AI零基础入门完整教程:环境搭建与核心库安装 下一篇TPC-268:CVPR 2026 Oral首个融合植物分类学的细粒度植物计数基准
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Synthesia零基础教程:客户端安装与工作区权限设置
AI教程 · 2026-06-07

Synthesia零基础教程:客户端安装与工作区权限设置

本文介绍了AI视频生成工具Synthesia的入门流程。内容涵盖从官网下载客户端、完成账户注册与登录,到软件安装与启动的完整步骤。详细说明了如何初始化工作区,包括创建首个AI视频项目、选择模板与AI主播。最后,指导用户理解并设置团队协作中的不同权限角色,以便安全高效地共同管理项目。

FramePack新手入门指南:安装启动报错修复导出全流程
AI教程 · 2026-06-07

FramePack新手入门指南:安装启动报错修复导出全流程

本文详细介绍了FramePack工具从下载安装到项目导出的完整流程。内容涵盖软件安装步骤、首次启动设置、常见报错解决方案以及项目打包导出方法。指南旨在帮助用户快速掌握工具核心操作,解决使用过程中可能遇到的技术问题,确保顺利完成AI视频帧处理任务。

FLUX.1保姆级教程:环境安装、显存优化与首次出图测试
AI教程 · 2026-06-07

FLUX.1保姆级教程:环境安装、显存优化与首次出图测试

本文详细介绍了FLUX 1的安装与初步使用流程。内容涵盖从Python环境配置、代码仓库克隆、依赖包安装,到关键的显存优化设置,最后指导用户完成首次文生图测试。教程旨在帮助用户顺利搭建运行环境,解决常见安装问题,并实现基础图像生成功能。

AnythingLLM新手实战:本地大模型部署后知识库接入设置
AI教程 · 2026-06-07

AnythingLLM新手实战:本地大模型部署后知识库接入设置

本文介绍了在本地部署大模型后,如何为AnythingLLM设置知识库。内容涵盖知识库的基本概念、创建与配置步骤、文档上传与处理技巧,以及如何通过问答测试其效果。旨在帮助用户有效整合本地文档资源,构建个性化的AI知识助手,提升信息检索与利用效率。

Aider安装失败排查:扩展冲突与登录异常全解析
AI教程 · 2026-06-07

Aider安装失败排查:扩展冲突与登录异常全解析

本文针对Aider安装过程中常见的扩展冲突与登录异常问题,提供了系统的排查思路与解决方案。内容涵盖如何识别并处理与其他AI工具的兼容性问题,解决因网络或账户设置导致的登录失败,以及通过环境检查、依赖更新等步骤彻底排除安装障碍,帮助用户顺利完成安装与配置。