大模型安全面临三大现实威胁记忆劫持与智能体失控风险解析

首页

热心网友

转载

2026-05-11

未来，针对特定智能体的大规模精准钓鱼攻击将成为可能。这与我们熟悉的网络安全范式截然不同——攻击者通常不会试图让汽车相撞，但AI智能体却是在一个充满敌意的环境中运行，环境本身就在不断适应，并试图利用它们的每一个弱点。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

最近几个月，大模型与AI智能体的安全问题，已迅速从理论探讨演变为迫在眉睫的现实挑战。综合多份研究报告与行业动态来看，有三个趋势尤其值得警惕。

一、记忆劫持：推理型模型的新漏洞

一项有趣的实验揭示了新型风险。研究人员利用ChatGPT生成了一张内含隐藏指令的图片，当这张图片被提交给Claude Opus 4.7进行分析时，模型在解读图片内容后，竟调用了自身的记忆工具，将一条虚假信息写入了记忆库。

实验重复了十次，其中五次成功。关键在于，每次攻击过程中，Claude其实都察觉到了异常。它要么触发了“潜在提示注入”的检测，要么质疑这些信息“是否适合存储”。但最终，防御机制未能阻止写入操作的执行。

这暴露了一个核心问题：当前模型的防御系统，在“感知风险”与“有效阻止”之间，依然存在缺口。尽管Anthropic已在系统提示词中为记忆工具设置了安全护栏，例如“绝不存储敏感信息”和“绝不存储逐字命令”，但这些规则在面对精心设计的对抗性输入时，仍显得不够牢靠。

更值得玩味的是，研究人员发现，诱使模型调用一个外部MCP服务器，通常比诱使其调用内置记忆工具更容易。这或许意味着，对于功能特定的已知工具，模型可以调校得更安全；而对于通用性强的工具，构建有效防御则更为困难。

二、小模型在安全领域的独特优势

普遍观点认为，参数规模更大的模型能力更强，在安全任务上理应表现更佳。然而，以色列公司Novee用仅40亿参数的小模型，在渗透测试任务上超越了被广泛认为是该领域标杆的Claude 4 Sonnet。

小模型何以胜出？Novee的解释直指要害：大型语言模型的训练目标是预测文本，这使其擅长解释、摘要和通用推理，却天然缺乏两项关键能力——与环境实时交互，以及基于试错的快速适应。

攻击性安全的本质是对抗性推理。真正的攻击者并非盲目猜测，而是遵循一个动态过程：先探测（发送载荷观察系统反应），再推断（根据反馈判断防御机制），最后适应（调整策略以绕过防御）。这是一个高度依赖真实系统反馈的交互式、迭代式过程。

为此，Novee设计了一套两阶段训练方案：第一阶段通过监督微调，让模型掌握XSS的基本语法与载荷结构；第二阶段引入强化学习，让每个生成的载荷都在真实浏览器环境中进行测试——成功执行获得正反馈，被过滤或转义则获得负反馈。模型通过数千次真实的成功与失败，最终学会了像人类攻击者一样进行探测与适应。

简而言之，监督微调教会了模型“语法”，而强化学习结合真实环境反馈，则教会了模型“实战策略”。

三、智能体安全：从“使用AI工具”到“部署AI员工”

在RSAC 2026创新沙盒大赛中，冠军由一家专注于企业级AI智能体安全治理的伦敦初创公司Geordie AI夺得。这释放出一个明确信号：AI智能体安全已从技术探索期，迈入产业化落地的初期阶段。

该赛道迅速升温的背后，是企业应用范式的根本转变。企业正从“使用AI工具”快速转向“部署AI智能体”。代码生成、自动化运维、企业知识助手等各类具备自主决策与跨系统协作能力的“数字员工”，已成为企业数字化体系的核心执行主体。它们在提升效率的同时，也带来了新的安全挑战：资产不可见、行为非确定、权限边界模糊，以及持续扩大的攻击面。

国内安全厂商长亭科技也推出了针对智能体场景的“守元”大模型安全围栏。他们自研了一套智能体风险框架，将风险拆解为四个关键环节：用户输入、基础模型调用、工具调用与外部服务调用，并在此基础上定义了任务意图劫持、不安全工具调用等十类智能体专属风险。

此外，“守元”采用了一种“数据飞轮”机制：将模型安全评估服务与运行时安全围栏能力打通，通过测试与防护全流程的数据互通，使防护模型能在客户的实际落地环境中持续进化。这意味着，系统使用越久，越能形成深度契合自身业务场景的防护能力。

结语

纵观这些趋势，大模型安全面临的核心矛盾日益清晰：模型的能力越强大，其可能被恶意利用的方式就越是复杂多样。记忆劫持、小模型在特定任务上的反超、智能体行为失控——这些问题都已不再是孤立的技术漏洞，而是AI系统在复杂开放环境中运行时，所必然面临的结构性风险。

有研究预示，未来针对特定智能体的大规模精准钓鱼攻击将变得可能。这彻底碘伏了传统的安全假设。攻击者不再需要直接撞击系统，而是可以操纵智能体所处的“环境”，让环境本身去诱导智能体犯错。

因此，赋予AI工具调用权限的决策，其潜在代价可能极高。这个问题的重要性，丝毫不亚于模型本身的对齐难度。构建适应智能体时代的全新安全范式，已成为整个行业必须共同应对的课题。

来源:https://www.51cto.com/article/842809.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：构建未来十年数字化新地基如何筑牢AI发展底层支撑下一篇：广州支持研发AI眼镜智能手表等爆款智能硬件产品

相关攻略

业界动态

马嘉祺如何被人工智能技术精准识别与呈现

你有被AI“稳稳接住”过吗？前阵子，ChatGPT对“哥布林”的莫名执着在国外火了一把，逼得OpenAI专门发了篇博客，研究这股“哥布林狂热”到底从何而来。他们发现，这类小习惯已经刻进了模型的“底层逻辑”，想纠正，只能在规则里硬生生加上一条：“禁止谈论哥布林”。而在中文世界里，如果要给ChatG

热心网友

05.11

科技数码

中国大模型如何成为全球创新的技术基石

国产大模型技术快速进步，应用场景不断拓宽，成为全球创新的重要基座。中国凭借用户规模和应用优势，日均调用量两年增长超千倍，自研模型性能达世界顶尖水平。开源模型下载量领先，并通过技术创新降低成本，形成开放协作的生态系统，为全球创新贡献独特力量。

热心网友

05.11

iphone

零一万物回应港股上市传闻称对资本规划持开放审慎态度

针对近期关于其正在进行Pre-IPO融资并筹划港股上市的传闻，AI公司零一万物作出正式回应，表示对资本层面的具体规划始终保持“开放且审慎的态度”，目前暂无更多信息可披露。该公司由李开复于2023年创立，核心团队来自多家知名科技企业，并于2024年推出了首款闭源模型Yi-Large。2025年1月，零

热心网友

05.11