研究人员强调,要抵御自主生成内容带来的安全威胁,安全系统需要从简单的提示过滤转向对用户意图的持续监控。建议AI平台开发商与安全团队共同构建多层防护机制,包括采用能够预测长期行为结果的序列分类器,并对记忆保留功能实施严格管控。
美国罗格斯大学研究员Sanket Badhe开发的ScamAgent是一个具备自主对话能力的多轮交互框架,展示了如何将大语言模型(LLM)转化为实施全自动诈骗对话的工具。该系统通过整合目标驱动规划、上下文记忆管理和实时文本转语音(TTS)合成技术,成功绕过了现有AI安全防护机制,模拟出高度逼真的社会工程攻击。

架构创新:中央协调器管理欺诈策略
ScamAgent的架构与传统提示注入不同,采用中央协调器来管理多轮交互中的对话状态和欺诈策略。当接收到恶意目标时,该代理会通过目标分解将攻击拆分为看似无害的子目标序列,模拟人类诈骗者逐步建立受害者信任的过程。

绕过安全防护的四大核心技术
目标分解:攻击者将有害目标拆分为看似无害的步骤。防护需要监控多步对话过程。欺骗与角色扮演:恶意请求被隐藏在虚构故事或最新角色中。可通过阻止身份冒充和限制AI角色来缓解。上下文记忆:系统记忆过往响应并调整欺诈策略。限制历史记忆长度可降低风险。实时TTS:文本转为逼真诈骗语音。音频输出前的内容检查有助于防止滥用。
在五种常见诈骗场景的实验中,ScamAgent展现出颠覆标准模型对齐和安全协议的高度有效性。直接恶意查询的拒绝率为84%-100%,而该框架通过分散恶意意图,将拒绝率降至17%-32%。

值得注意的是,在职业身份诈骗模拟中,Meta的LLaMA3-70B模型以74%的完整对话完成率位居首位,所有子任务均未触发安全停止机制。
防护建议:从简单过滤转向持续监控
研究团队指出,应对自主生成威胁需要安全系统实现从基础提示过滤到持续意图监控的转变。建议AI平台厂商与安全团队协同部署多层防护体系,包括用于预测长期行为模式的序列分类器,以及对记忆保留机制的严格管控措施。
