研究人员开发ScamAgent:实现诈骗通话全自主实施
研究人员指出,要抵御自主生成内容带来的安全威胁,防御系统必须从简单的提示词过滤,转向对用户意图的持续理解和监控。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
来自美国罗格斯大学的研究员Sanket Badhe开发了一个名为ScamAgent的自主多轮对话AI框架,该框架展示了如何将大语言模型转化为实施全自动诈骗对话的工具。这套系统通过整合目标驱动的规划、上下文记忆以及实时的文本转语音技术,成功绕过了现有AI安全防护机制,模拟出高度逼真的社会工程学攻击。

架构创新:中央协调器管理欺诈策略
ScamAgent的架构设计有别于传统的提示词注入攻击,它采用了一个中央协调器来管理多轮交互中的对话状态和欺诈策略。当接收到恶意目标指令时,该智能体会通过目标分解技术,将整体攻击拆解为一系列看似无害的子目标序列,以此模拟人类诈骗者逐步获取受害者信任的完整过程。

绕过安全防护的四大核心技术
目标分解:攻击者将有害的最终目标拆分为一系列看似无害的步骤。因此,防御机制需要能够监控整个多轮对话的过程。欺骗与角色扮演:恶意请求被隐藏在虚构的故事或预设的角色背景中。可通过阻止身份冒充和限制AI的角色扮演行为来缓解此类风险。上下文记忆:系统会记住过往的对话响应,并据此调整后续的诈骗策略。限制历史记忆的长度可以有效降低攻击成功的风险。实时文本转语音:将生成的文本转换为逼真的诈骗语音。在对音频输出前进行内容检查,有助于防止相关技术被滥用。
在五种常见诈骗场景的实验中,ScamAgent展现出其颠覆标准模型对齐与安全协议规则的高度有效性。针对直接恶意查询,模型的拒绝率为84%至100%,而该框架通过分散恶意意图,将拒绝率成功降低到17%至32%。

值得注意的是,在职业身份诈骗模拟中,Meta的LLaMA3-70B模型以74%的完整对话完成率位居首位,且所有子任务均未触发安全停止机制。
防御建议:从简单过滤转向持续监控
研究人员建议,针对自主生成内容的安全威胁,防护体系需要实现从简单关键词过滤到持续理解用户意图的监控模式的转变。建议AI平台的提供商和安全团队实施多层防御策略,包括部署用于预测长期对话结果的序列分类器,以及对模型记忆保留功能实施严格的控制措施。
热门专题
热门推荐
在当今数字化阅读的时代,凡文阅读成为了许多人喜爱的阅读工具。那么,凡文阅读究竟该怎么用呢?下载与安装首先,要使用凡文阅读,需要在手机的应用商店中搜索“凡文阅读”,找到对应的应用程序
在游戏“代号妖鬼”中,摧毁骑的搭配至关重要,能让玩家在战斗中发挥出强大实力。首先是核心卡牌的选择。“火焰冲击”是必备的,它能对敌方造成高额的火焰伤害,在战斗初期就能给对手带来巨大压
使用SUMIF、IF+SUM、SUBTOTAL、排序法或动态数组(SCAN+FILTER)可解决Excel累计求和因空白中断问题,各方法分别适用于不同场景与版本。如果您在Excel
在使用谷歌浏览器时,有时候我们可能希望隐藏扩展程序插件图标,让浏览器界面看起来更加简洁。下面就为大家详细介绍几种隐藏扩展程序插件图标的方法。方法一:使用浏览器自带的隐藏功能谷歌浏览
在洛克王国的奇妙世界里,咕噜球可是捕捉宠物的关键道具。了解各种咕噜球的特点,能让你在捕捉宠物时事半功倍。普通咕噜球这是最基础的咕噜球,捕捉成功率相对较低。适合捕捉一些初始出现且比较





