研究人员开发ScamAgent:实现诈骗通话全自主实施
研究人员指出,要抵御自主生成内容带来的安全威胁,防御系统必须从简单的提示词过滤,转向对用户意图的持续理解和监控。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
来自美国罗格斯大学的研究员Sanket Badhe开发了一个名为ScamAgent的自主多轮对话AI框架,该框架展示了如何将大语言模型转化为实施全自动诈骗对话的工具。这套系统通过整合目标驱动的规划、上下文记忆以及实时的文本转语音技术,成功绕过了现有AI安全防护机制,模拟出高度逼真的社会工程学攻击。

架构创新:中央协调器管理欺诈策略
ScamAgent的架构设计有别于传统的提示词注入攻击,它采用了一个中央协调器来管理多轮交互中的对话状态和欺诈策略。当接收到恶意目标指令时,该智能体会通过目标分解技术,将整体攻击拆解为一系列看似无害的子目标序列,以此模拟人类诈骗者逐步获取受害者信任的完整过程。

绕过安全防护的四大核心技术
目标分解:攻击者将有害的最终目标拆分为一系列看似无害的步骤。因此,防御机制需要能够监控整个多轮对话的过程。欺骗与角色扮演:恶意请求被隐藏在虚构的故事或预设的角色背景中。可通过阻止身份冒充和限制AI的角色扮演行为来缓解此类风险。上下文记忆:系统会记住过往的对话响应,并据此调整后续的诈骗策略。限制历史记忆的长度可以有效降低攻击成功的风险。实时文本转语音:将生成的文本转换为逼真的诈骗语音。在对音频输出前进行内容检查,有助于防止相关技术被滥用。
在五种常见诈骗场景的实验中,ScamAgent展现出其颠覆标准模型对齐与安全协议规则的高度有效性。针对直接恶意查询,模型的拒绝率为84%至100%,而该框架通过分散恶意意图,将拒绝率成功降低到17%至32%。

值得注意的是,在职业身份诈骗模拟中,Meta的LLaMA3-70B模型以74%的完整对话完成率位居首位,且所有子任务均未触发安全停止机制。
防御建议:从简单过滤转向持续监控
研究人员建议,针对自主生成内容的安全威胁,防护体系需要实现从简单关键词过滤到持续理解用户意图的监控模式的转变。建议AI平台的提供商和安全团队实施多层防御策略,包括部署用于预测长期对话结果的序列分类器,以及对模型记忆保留功能实施严格的控制措施。
热门专题
热门推荐
三季报收官,光伏企业交出了近年难得的尚佳成绩 三季报发布完毕,光伏行业总算交出了一份近年来难得的、还算不错的成绩单。市场等这一刻,确实等了挺久。 根据Choice光伏设备板块收录的78家企业财报,整个板块三季度的净利润达到了7 58亿元。这个数字怎么看?不妨对比一下:就在二季度,板块的净亏损还高达4
北京天兵科技天龙三号火箭首飞失利解析 最近,北京天兵科技自主研发的天龙三号大型液体运载火箭,在酒泉卫星发射中心执行首次飞行任务时遭遇失利,这无疑是给国内商业航天关注者带来了一次震动。这款被寄予厚望的火箭,瞄准的是近地轨道20吨级的可回收运力,其设计初衷是通过低成本、高频次的发射模式,抢占一箭36星组
苹果芯片实战:48台Mac mini搭建本地AI集群,如何碘伏云端语音识别? 最近科技圈有个挺有意思的消息。知名播客应用Overcast的开发者Marco Arment,自己动手搭了个“大家伙”——一个由48台苹果Mac mini组成的服务器集群。关键是,这个集群没走寻常路,它完全绕开了云端AI服务
纯电赛道再进化:领克10系列如何重新定义“运动轿车”? 如果问,纯电时代最让人怀念传统燃油车的是什么?很多人会把票投给两件事:说走就走的补能,和随心所欲的操控。最近,领克用一场全球首秀给出了自己的答案。旗下全新的中大型运动轿车领克10,以及更极致的性能版本领克10+联袂登场。这不仅仅是两款新车,更像
苹果正酝酿一款“可自定义”的Vision Pro,核心框架支持模块化拼装 一则来自供应链和专利领域的消息,引起了科技圈的关注。4月8日,有外媒报道指出,苹果似乎并不满足于当前的一体化设计思路,其正在深入探索如何打造一款高度可自定义的Apple Vision Pro。未来的VR AR头显,用户或许能像





