10月19日消息,Anthropic、英国AI安全研究所与艾伦·图灵研究所最近发布联合研究,揭示了一个令人担忧的现象:像Claude、ChatGPT和Gemini这样的大语言模型,对数据投毒攻击的防御能力远低于预期。研究发现,攻击者只需使用极少量恶意文件,就能在模型中成功植入"后门"程序。
这项研究对参数规模从60万到130亿不等的多个AI模型进行了训练测试,结果显示无论模型规模如何扩展,攻击者仅需插入约250份被污染的训练文件,就能有效操控模型的响应行为。这一发现彻底颠覆了业界长期持有的"模型越大、攻击难度越高"的传统认知。
在被测试的最大模型(130亿参数)中,250份恶意文件仅占训练数据总量的0.00016%,然而当模型遇到特定的"触发短语"时,就会按照植入的后门指令执行,输出毫无意义的文本,而非正常的连贯回应。
研究人员还尝试通过持续的"净数据"训练来消除后门,结果显示这些后门程序仍在一定程度上持续存在,表现出较强的顽固性。
虽然本次研究主要针对简单的后门行为,且测试模型规模尚未达到商业旗舰级水平,但研究团队强烈呼吁业界必须尽快改进现有的安全实践方案。

