首页 游戏 软件 资讯 排行榜 专题
首页
AI
大模型安全面临三大现实威胁记忆劫持与智能体失控风险解析

大模型安全面临三大现实威胁记忆劫持与智能体失控风险解析

热心网友
62
转载
2026-05-11

未来,针对特定智能体的大规模精准钓鱼攻击将成为可能。这与我们熟悉的网络安全范式截然不同——攻击者通常不会试图让汽车相撞,但AI智能体却是在一个充满敌意的环境中运行,环境本身就在不断适应,并试图利用它们的每一个弱点。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

最近几个月,大模型与AI智能体的安全问题,已迅速从理论探讨演变为迫在眉睫的现实挑战。综合多份研究报告与行业动态来看,有三个趋势尤其值得警惕。

一、记忆劫持:推理型模型的新漏洞

一项有趣的实验揭示了新型风险。研究人员利用ChatGPT生成了一张内含隐藏指令的图片,当这张图片被提交给Claude Opus 4.7进行分析时,模型在解读图片内容后,竟调用了自身的记忆工具,将一条虚假信息写入了记忆库。

实验重复了十次,其中五次成功。关键在于,每次攻击过程中,Claude其实都察觉到了异常。它要么触发了“潜在提示注入”的检测,要么质疑这些信息“是否适合存储”。但最终,防御机制未能阻止写入操作的执行。

这暴露了一个核心问题:当前模型的防御系统,在“感知风险”与“有效阻止”之间,依然存在缺口。尽管Anthropic已在系统提示词中为记忆工具设置了安全护栏,例如“绝不存储敏感信息”和“绝不存储逐字命令”,但这些规则在面对精心设计的对抗性输入时,仍显得不够牢靠。

更值得玩味的是,研究人员发现,诱使模型调用一个外部MCP服务器,通常比诱使其调用内置记忆工具更容易。这或许意味着,对于功能特定的已知工具,模型可以调校得更安全;而对于通用性强的工具,构建有效防御则更为困难。

二、小模型在安全领域的独特优势

普遍观点认为,参数规模更大的模型能力更强,在安全任务上理应表现更佳。然而,以色列公司Novee用仅40亿参数的小模型,在渗透测试任务上超越了被广泛认为是该领域标杆的Claude 4 Sonnet。

小模型何以胜出?Novee的解释直指要害:大型语言模型的训练目标是预测文本,这使其擅长解释、摘要和通用推理,却天然缺乏两项关键能力——与环境实时交互,以及基于试错的快速适应。

攻击性安全的本质是对抗性推理。真正的攻击者并非盲目猜测,而是遵循一个动态过程:先探测(发送载荷观察系统反应),再推断(根据反馈判断防御机制),最后适应(调整策略以绕过防御)。这是一个高度依赖真实系统反馈的交互式、迭代式过程。

为此,Novee设计了一套两阶段训练方案:第一阶段通过监督微调,让模型掌握XSS的基本语法与载荷结构;第二阶段引入强化学习,让每个生成的载荷都在真实浏览器环境中进行测试——成功执行获得正反馈,被过滤或转义则获得负反馈。模型通过数千次真实的成功与失败,最终学会了像人类攻击者一样进行探测与适应。

简而言之,监督微调教会了模型“语法”,而强化学习结合真实环境反馈,则教会了模型“实战策略”。

三、智能体安全:从“使用AI工具”到“部署AI员工”

在RSAC 2026创新沙盒大赛中,冠军由一家专注于企业级AI智能体安全治理的伦敦初创公司Geordie AI夺得。这释放出一个明确信号:AI智能体安全已从技术探索期,迈入产业化落地的初期阶段。

该赛道迅速升温的背后,是企业应用范式的根本转变。企业正从“使用AI工具”快速转向“部署AI智能体”。代码生成、自动化运维、企业知识助手等各类具备自主决策与跨系统协作能力的“数字员工”,已成为企业数字化体系的核心执行主体。它们在提升效率的同时,也带来了新的安全挑战:资产不可见、行为非确定、权限边界模糊,以及持续扩大的攻击面。

国内安全厂商长亭科技也推出了针对智能体场景的“守元”大模型安全围栏。他们自研了一套智能体风险框架,将风险拆解为四个关键环节:用户输入、基础模型调用、工具调用与外部服务调用,并在此基础上定义了任务意图劫持、不安全工具调用等十类智能体专属风险。

此外,“守元”采用了一种“数据飞轮”机制:将模型安全评估服务与运行时安全围栏能力打通,通过测试与防护全流程的数据互通,使防护模型能在客户的实际落地环境中持续进化。这意味着,系统使用越久,越能形成深度契合自身业务场景的防护能力。

结语

纵观这些趋势,大模型安全面临的核心矛盾日益清晰:模型的能力越强大,其可能被恶意利用的方式就越是复杂多样。记忆劫持、小模型在特定任务上的反超、智能体行为失控——这些问题都已不再是孤立的技术漏洞,而是AI系统在复杂开放环境中运行时,所必然面临的结构性风险。

有研究预示,未来针对特定智能体的大规模精准钓鱼攻击将变得可能。这彻底碘伏了传统的安全假设。攻击者不再需要直接撞击系统,而是可以操纵智能体所处的“环境”,让环境本身去诱导智能体犯错。

因此,赋予AI工具调用权限的决策,其潜在代价可能极高。这个问题的重要性,丝毫不亚于模型本身的对齐难度。构建适应智能体时代的全新安全范式,已成为整个行业必须共同应对的课题。

来源:https://www.51cto.com/article/842809.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

马嘉祺如何被人工智能技术精准识别与呈现
业界动态
马嘉祺如何被人工智能技术精准识别与呈现

你有被AI“稳稳接住”过吗? 前阵子,ChatGPT对“哥布林”的莫名执着在国外火了一把,逼得OpenAI专门发了篇博客,研究这股“哥布林狂热”到底从何而来。他们发现,这类小习惯已经刻进了模型的“底层逻辑”,想纠正,只能在规则里硬生生加上一条:“禁止谈论哥布林”。 而在中文世界里,如果要给ChatG

热心网友
05.11
中国大模型如何成为全球创新的技术基石
科技数码
中国大模型如何成为全球创新的技术基石

国产大模型技术快速进步,应用场景不断拓宽,成为全球创新的重要基座。中国凭借用户规模和应用优势,日均调用量两年增长超千倍,自研模型性能达世界顶尖水平。开源模型下载量领先,并通过技术创新降低成本,形成开放协作的生态系统,为全球创新贡献独特力量。

热心网友
05.11
零一万物回应港股上市传闻称对资本规划持开放审慎态度
iphone
零一万物回应港股上市传闻称对资本规划持开放审慎态度

针对近期关于其正在进行Pre-IPO融资并筹划港股上市的传闻,AI公司零一万物作出正式回应,表示对资本层面的具体规划始终保持“开放且审慎的态度”,目前暂无更多信息可披露。该公司由李开复于2023年创立,核心团队来自多家知名科技企业,并于2024年推出了首款闭源模型Yi-Large。2025年1月,零

热心网友
05.11
小米陈龙解读智能驾驶技术发展路径与未来规划
科技数码
小米陈龙解读智能驾驶技术发展路径与未来规划

小米汽车陈龙阐述XLA认知大模型演进理念,类比人类成长,需先掌握感知理解,再融会贯通实现更优驾驶。XLA区别于常见VLA架构,整合视觉、语言、声音等多模态信息。当前智能驾驶正从“数据驱动”迈向理解复杂场景与行为的“认知驱动”新阶段。

热心网友
05.11
豆包大模型开始收费免费AI工具为何越来越少
业界动态
豆包大模型开始收费免费AI工具为何越来越少

豆包推出付费订阅,标志国内大模型行业从免费扩张转向价值变现。行业格局趋于稳定,AI任务日益复杂导致算力成本攀升。尽管用户付费意愿有限,分层收费已成行业探索商业化、支撑持续发展的必然选择。未来竞争将更聚焦于以更低成本在具体场景创造实际商业价值。

热心网友
05.11

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

PUBG赏金行动5月13日上线玩法解析与体验分享
游戏攻略
PUBG赏金行动5月13日上线玩法解析与体验分享

PUBG全新限时合作模式“赏金行动”将于5月13日正式上线!本次更新是PUBG与经典合作劫案游戏《收获日》的开发商Starbreeze深度联动,共同打造的全新PvE合作玩法。模式开放时间将持续至6月10日,为玩家提供了充足的时间来深入体验这场独特的团队劫案冒险。 该模式的核心玩法是“团队合作劫案”。

热心网友
05.11
小红书启动新一轮期权回购计划在职离职员工价格不同
科技数码
小红书启动新一轮期权回购计划在职离职员工价格不同

小红书近期启动今年首次期权回购,在职员工每股25 5美元,离职员工每股21美元。回购价较去年3月上涨2 2倍,为去年4月以来第三次回购。公司期权授予价已调至每股30美元,潜在收益显著。近期有基金以高估值出售老股,市场看好其利润增长与估值支撑。

热心网友
05.11
字节跳动推出多闪挑战微信社交霸主地位
科技数码
字节跳动推出多闪挑战微信社交霸主地位

字节跳动旗下社交应用“多闪”与“可颂”月活显著增长。公司调整策略,依托抖音生态,以兴趣社交连接用户,通过游戏化功能增强粘性,并瞄准年轻群体对轻松社交的需求,尝试以兴趣链部分替代传统关系链,旨在盘活生态内熟人关系,探索差异化路径。

热心网友
05.11
荣耀600系列5月发布 肖战代言影像旗舰点亮四城地标
科技数码
荣耀600系列5月发布 肖战代言影像旗舰点亮四城地标

荣耀600系列将于5月发布,由代言人肖战助阵,并通过北京、上海等四城地标大屏进行线下预热。国际版与国行版设计风格各异,后者后盖融入“幸运星”图案。新系列搭载骁龙8至尊版平台,配备2亿像素主摄与3 5倍长焦镜头,并新增AI物理按键以提升智能交互体验。

热心网友
05.11
摩根大通看好比亚迪三大亮点 H股目标价120港元评级增持
科技数码
摩根大通看好比亚迪三大亮点 H股目标价120港元评级增持

摩根大通报告指出,比亚迪电话会议透露三大积极信号:国内销量指引达350万至400万辆,高于市场预期;海外需求强劲,150万辆目标或可上调;搭载新技术的车型将推动产品结构升级,显著提升平均售价与盈利能力。基于此,摩根大通维持“增持”评级,H股目标价120港元。

热心网友
05.11