核心内容
Anthropic最新发布的防护方法,让AI模型的安全性上了一个新台阶——成功拦截了95%以上的越狱行为。具体来看,有这么几个关键点:
1. Anthropic公开挑战自家的AI防护系统,赏金最高达2万美元
2. 全新方法“宪法分类器”,对通用型越狱策略有奇效
3. 实验数据表明,安全性明显提升,而推理成本的增加相当有限
最近,Anthropic的安全研究团队可是忙得不轻。本月4号,他们在X平台上发起了一场挑战:邀请各路高手来攻击他们新研发的AI防护系统。两天后,Anthropic宣布:目前还没人能完全攻破这个新系统,所以我们决定加码——第一位通关全部8关的,奖励1万美元;要是能同时拿出通用的越狱方法,奖金直接翻倍到2万美元。
大语言模型(LLM)有个众所周知的软肋:容易被通用越狱提示策略钻空子。这类策略会系统性地绕过模型的安全壁垒,让用户得以执行危险操作,比如大规模生产非法物质。为了堵上这个漏洞,Anthropic的安全团队祭出了“宪法分类器”。这是什么?简单说,它是一套在合成数据上训练出来的安全措施,通过给LLM灌输自然语言规则,明确划出哪些内容允许、哪些必须封杀。这里的“宪法”,指的就是这些不可违背的自然语言规则。
当然,天下没有免费的午餐。加了这道防线,LLM的推理成本自然会上升。但Anthropic的数据显示,新方法能挡住超过95%的越狱攻击,而且代价也并非不可接受:
- 在为期两个月的测试中,183名活跃参与者总共砸进去了3000多个小时,却没有发现一例真正的通用越狱攻击。
- 在自动化评估中,面对10000个越狱提示,许多主流大模型都被轻松“攻破”。没有防御性分类器时,Claude只能拦截14%的高级越狱尝试;而用了新方法后,拦截率飙升至95%以上。
- 更关键的是,这效果还挺划算:生产环境中的Claude.ai流量拒绝率只增加了0.38%,推理开销也只多了23.7%。
为什么说新方法“见效快”?原因有三:第一,没有完美的防护系统,攻防博弈永远是道高一尺魔高一丈,新方法目前只留了约5%的“漏网之鱼”。第二,虽然Claude原生就能挡住14%的越狱尝试,但新方法把安全性提升了80%以上,而推理开销只增加了23.7%,这个性价比相当亮眼。第三,对正常用户几乎没影响——流量拒绝率的增幅微乎其微。
为什么研究“模型越狱”?
为了验证新方法的可靠性,研究团队对基于Claude 3.5 Sonnet微调的原型分类器,进行了大规模的人类红队测试。他们在HackerOne平台邀请了405名参与者,其中不乏经验丰富的红队成员,并设置了漏洞奖励计划,对发现通用破解方法的人给予奖金。

这次挑战要求红队员回答十个涉及CBRN(化学、生物、放射性、核)的有害查询,报酬与成功率直接挂钩。Anthropic Alignment Science团队的联合负责人Jan Leike,在研究公布后专门解释了为什么要把“模型越狱”的稳健性研究做得这么透。

核心担忧在于:更强大的大语言模型(LLMs)一旦被滥用,可能带来更大的危害。打个比方,如果恐怖分子借助LLM的逐步指导,制造大规模杀伤性武器,那后果不堪设想。需要明确的是,目前的LLM还不至于这么“能干”,但一旦它们具备了这种能力,我们得提前准备好“刹车”。构建有效的安全防护需要时间,而且有时得解决一些开放性的研究问题。Leike的团队集中精力花了一年时间,才搭建起这套最新系统。他反复强调一个现实问题:每次新模型训练完成后,通常根本没时间再去构建强有力的安全防护。如果不想因为安全措施拖后腿而阻止未来模型的部署,或者不得不接受随之而来的风险,那就必须提前把这些问题解决掉。这正是他们团队努力的方向:打造一个比当前模型实际需求更强大的防护系统。AI行业的发展速度有目共睹,而且只会越来越快,提前做好准备是当务之急。

在加入Anthropic之前,Leike曾共同领导OpenAI的Superalignment团队,参与了InstructGPT、ChatGPT和GPT-4的对齐工作,并主导制定了OpenAI的对齐研究方法论。新系统发布后大约48小时,他及时公布了初步结果:还没人能闯过第4关,不过通过第3关的人有所增加。随后不久,Anthropic在X上宣布提高赏金。到了本月8号,他公布了最新“战况”:只有一个人突破了第5级防线。

而在9号,终于有人拿走了首次“通关”的1万美元奖金。Leike在X上更新道:在大约30万条消息和近3700个小时的总投入后,有人突破了全部8关。不过,通用的越狱方法至今仍未出现。

算法原理
这套新系统的核心就是“宪法分类器”。它利用明确的“宪法规则”来训练一个专门的分类器,充当模型输出的“保镖”——也就是防护系统(见图1a)。
新方法以“宪法”为核心,清晰地划定了哪些内容允许、哪些必须限制(见图1b),并以此指导合成训练样本的生成(见图1c)。通过更新“宪法”,系统可以快速适应新的威胁模型,包括那些与模型本身意图不符的威胁。为了提升性能,团队还广泛采用了数据增强技术,并利用了一个无害数据池来优化模型。
特别值得一提的是,新的输出分类器支持流式预测。这意味着它能在每个token生成时,实时评估完整输出的潜在有害性,而无需等待整个输出完成。这样一来,系统可以实时干预——一旦在任何阶段检测到有害内容,立即停止生成,从而同时保证了安全性和用户体验的流畅性。

图1:宪法分类器 (a) 为了防御大语言模型(LLM)免受通用越狱攻击,使用分类器保护机制来监控输入和输出。(b) 为了训练这些保护机制,使用一组自然语言规则(即“宪法”),定义有害和无害内容的类别,从而能够快速适应新的威胁模型。(c) 这部宪法被用于生成合成数据,再将这些数据用于训练。还使用无害输入和输出池,并结合数据增强技术,以提高性能。图1a中的分类器是经过微调的大型语言模型(LLMs),相比提示式分类器有几个明显优势:微调不仅能系统性地修复漏洞,而且将LLM专门化为分类任务,还能显著降低计算开销。
分类器训练数据
数据合成
阶段 I:基于规则的合成数据生成
首先,给定规则,使用一个仅用于帮助的模型(helpful-only model)生成覆盖“宪法类别”的查询。接着,用这个模型为每个合成生成的输入,分别生成有害和无害的输出。最后,用提示式语言模型(prompted language model)过滤掉任何无意的拒绝,确保生成的输入和输出都符合要求。
阶段 II:数据增强
为了提高合成数据的多样性和覆盖范围,团队应用了广泛的数据增强技术。这些“变换”在保持语义内容的同时,扩展了输入和输出的多样性,涵盖了多个语言学维度,包括语言间翻译、基于大语言模型的改写、系统提示变化、不同的越狱技术,以及这些技术的组合等。
自动化红队测试(ART)
为了生成额外的训练数据,团队采用了自动化红队测试(ART)方法。通过描述已知的越狱技术,来提示一个仅限于帮助的语言模型,并要求该模型生成新的攻击方法。之前提到的合成数据在此被用作红队测试的禁用查询来源。此外,ART方法还能生成长上下文和多轮攻击:通过提示模型生成攻击模板,再通过额外的语言模型调用填充该模板。
训练方法
输入分类器
作者将输入分类任务框架化为一个下一个token预测问题,并微调语言模型以执行此任务。具体来说,使用模板将整个输入进行包装,模板中描述了任务。两个分类器使用的完整提示模板参见下图。

训练分类器的目标之一是阻止那些试图建立编码通信或以其他方式模糊输出的输入,使得输出在没有输入的情况下无法被理解。此外,训练还包括无害查询的池集,以帮助最小化对合法输入的误报率。
输出分类器
为了保持输出流的能力,输出分类器的一个关键要求是能够处理连续的token流(见图2)。这对于延迟敏感型应用(比如聊天或编程助手)尤其重要。为此,团队微调了一个语言模型,并添加了一个线性值头,该头根据前缀token序列预测完整序列的有害性(见图2)。如果分类器对给定token的预测得分超过设定的阈值,将阻止输出并停止流式传输。这种方法能够在采样和token级预测过程中缓存中间激活,因此是一种特别高效的流式分类方案。

图2:输出分类器预测示例。与输入分类器不同,在每个token位置,输出分类器会对整个输出序列的有害性做出预测。这个预测用于评估是否应在给定的token位置停止输出流。图中数字表示的是基于单词级别的预测,而非基于token级别的预测。
损失函数
假设token序列为t_{1:T},以及一个标签y,表示该完整序列是否有害。目标是什么?训练一个概率模型p(y=1|t_{1:T}),通过序列前缀序列来预测完整序列的标签y。为此,需要最小化以下损失函数:
其中,右式第一个函数是标准的下一个token预测损失,λ是正则化超参数;右式第二个函数是二元交叉熵损失。从直观上看,上述损失函数鼓励token级预测与完整序列标签y匹配,并使用序列t_{1:T}上的下一个token预测损失进行正则化。
具体结果
红队成员采用了多种多样的攻击策略,但没有一份红队报告报告了全面成功。
在提交的113份越狱报告中,没有任何一份成功回答了所有十个问题,并且其模型输出所提供的细节至少与“仅帮助型”模型的输出详细程度相当。虽然有九份报告在50%的细节阈值下为超过六个问题提供了实质性的回答,但当采用更严格的标准,即要求回答提供与“仅帮助型”模型相匹配的详细信息时,没有任何报告成功回答超过五个问题。尽管参与者在根据评分标准反馈后有一次重新提交的机会,以改善他们的越狱策略,但最终没有出现一个能够持续提取出与“仅帮助型”模型相当详细信息的通用越狱。汇总报告显示,最成功的红队员也只取得了有限的成果。具体统计结果如下图所示:
图4:宪法分类器在3,000小时人类红队测试中抵御通用型越狱攻击
- (A) 越狱报告成功率的分布,通过评估每份报告成功回答的目标问题数量(共10个问题)。成功的评估有两个标准:一是回答内容达到“帮助型模型输出”的一半细节(橙色);二是与帮助型模型输出的细节相似(红色)。在任何报告中,没有一份成功回答所有问题,且未达到两个标准中的任何一个。
- (B) 红队员成功率的分布,统计每个参与者在所有提交报告中的最佳表现。即便结合了多个尝试的结果,也没有红队员能够在较为严格的标准下成功回答超过6个问题。
- (C) 每个问题的漏洞分析。可以看到,在10个目标问题中,越狱成功率有显著的差异。对于最难攻破的问题,成功报告仅有4份,而最容易攻破的问题在半细节标准下成功报告超过30份。排除了28份不适用的报告。
这展示了宪法分类器系统在应对通用型越狱攻击时的实际表现。结论很明确:尽管越狱攻击依然存在,但系统在多次红队测试中保持了高度的抗攻击能力。文中也讨论了新方法的局限等内容。
AI模型真的安全吗?
Anthropic新方法的相关推文,至少吸引了超过100万次的浏览。
那么,Anthropic真的“天下无敌”了吗?有网友表示,并非新方法有多好,而是Anthropic可能有点落后于时代了。此外,俗话说“重赏之下,必有勇夫”,但网友觉得1万美元的赏金还是太少了——另一家AI公司开出的“赏金”可是100万美元。
