研究人员指出,要抵御自主生成内容带来的安全威胁,防御系统必须从简单的提示词过滤,转向对用户意图的持续理解和监控。
来自美国罗格斯大学的研究员Sanket Badhe开发了一个名为ScamAgent的自主多轮对话AI框架,该框架展示了如何将大语言模型转化为实施全自动诈骗对话的工具。这套系统通过整合目标驱动的规划、上下文记忆以及实时的文本转语音技术,成功绕过了现有AI安全防护机制,模拟出高度逼真的社会工程学攻击。

架构创新:中央协调器管理欺诈策略
ScamAgent的架构设计有别于传统的提示词注入攻击,它采用了一个中央协调器来管理多轮交互中的对话状态和欺诈策略。当接收到恶意目标指令时,该智能体会通过目标分解技术,将整体攻击拆解为一系列看似无害的子目标序列,以此模拟人类诈骗者逐步获取受害者信任的完整过程。

绕过安全防护的四大核心技术
目标分解:攻击者将有害的最终目标拆分为一系列看似无害的步骤。因此,防御机制需要能够监控整个多轮对话的过程。欺骗与角色扮演:恶意请求被隐藏在虚构的故事或预设的角色背景中。可通过阻止身份冒充和限制AI的角色扮演行为来缓解此类风险。上下文记忆:系统会记住过往的对话响应,并据此调整后续的诈骗策略。限制历史记忆的长度可以有效降低攻击成功的风险。实时文本转语音:将生成的文本转换为逼真的诈骗语音。在对音频输出前进行内容检查,有助于防止相关技术被滥用。
在五种常见诈骗场景的实验中,ScamAgent展现出其颠覆标准模型对齐与安全协议规则的高度有效性。针对直接恶意查询,模型的拒绝率为84%至100%,而该框架通过分散恶意意图,将拒绝率成功降低到17%至32%。

值得注意的是,在职业身份诈骗模拟中,Meta的LLaMA3-70B模型以74%的完整对话完成率位居首位,且所有子任务均未触发安全停止机制。
防御建议:从简单过滤转向持续监控
研究人员建议,针对自主生成内容的安全威胁,防护体系需要实现从简单关键词过滤到持续理解用户意图的监控模式的转变。建议AI平台的提供商和安全团队实施多层防御策略,包括部署用于预测长期对话结果的序列分类器,以及对模型记忆保留功能实施严格的控制措施。
