
一项最新的联合研究揭示,当前主流大语言模型在面对数据中毒攻击时表现出的防御能力远低于预期。这项由多家机构共同完成的研究,涵盖了对参数规模从600万到130亿不等的多种模型进行的系统性测试。结果显示,攻击者仅需引入约250份被污染的训练文件,即可成功在模型中植入隐藏的"后门",从而操控其输出行为。
这一发现挑战了此前普遍存在的认知,即模型参数量越大,抵御此类攻击的能力越强。实验证明,即便是参数量达到130亿的模型,也难以抵抗此类攻击。在此类模型的整个训练数据集中,250份恶意文件仅占总量的0.00016%,但一旦输入特定的触发短语,模型便会偏离正常逻辑,输出无意义内容,表现出被操控的特征。
研究人员进一步尝试通过后续引入大量清洁数据的方式对模型进行再训练,以期清除后门影响,但结果显示原有后门效应仍能在一定程度上持续存在,表明此类攻击具有较强的隐蔽性和持久性。
尽管本次实验主要针对较为基础的后门机制,且未覆盖当前最先进的超大规模商用模型,但其揭示的风险已足够引起重视。研究团队强调,现有AI安全防护策略亟待调整,行业应重新评估训练数据的完整性与安全性,以应对日益复杂的模型安全威胁。
