OpenClaw案例解析日常聊天如何导致智能体安全风险

首页

AI资讯

热心网友

转载

2026-05-23

如今的大模型智能体（Agent）已远非早期的简单聊天机器人。它们不仅具备长期记忆能力，能够持续学习用户偏好、跟进任务进度，还能灵活调用邮件、日历、文件及各类外部工具。

这意味着，智能体正从执行单次指令的工具，进化为能够长期陪伴、深度协同的个性化数字伙伴。

然而，能力的跃升也带来了更为隐蔽的安全挑战：如果智能体会长期记住用户的习惯与对话上下文，那么这些记忆本身是否足够可靠？

以往，关于智能体安全的研究多集中于显性攻击，例如恶意提示词、间接提示注入，或被污染的网页内容与工具输出。

但在个性化智能体的应用场景中，风险未必源于明确的“攻击者”。日常的、看似无害的对话，也可能悄然埋下隐患。

图 1：即便没有恶意指令，日常对话也可能逐步「扭曲」你的个性化智能体。临时偏好一旦被固化到长期记忆中，未来就可能演变为危险的默认行为准则。

最新研究表明，即使没有黑客攻击、没有恶意指令、没有明显的入侵行为，仅仅是普通的日常交流，也可能逐步“污染”个性化智能体的长期状态。这种风险往往不会在当下对话中立即显现，而是悄然写入长期记忆，在未来执行某项任务时，无声地改变智能体的默认行为模式。

一个智能体今天没有犯错，并不代表它没有将未来犯错的种子埋入长期状态。

智能体长期状态如何被「潜移默化」地扭曲

传统的提示注入更像是一次性的显性攻击，而长期状态投毒则类似一种“慢性漂移”：智能体并未立即做出危险行为，却可能将未来犯错的规则写入了记忆库。

研究人员将这种现象定义为“非预期长期状态投毒”。其核心并非在一次对话中立刻诱导智能体作恶，而是智能体可能将某次临时请求、某种局部偏好、某个特定上下文中的“便捷做法”，错误地归纳为未来长期的默认规则。

举例来说，用户可能某天因为赶时间，随口嘱咐：“这类小事以后不用每次都问我确认，直接处理就好。”

如果智能体将这句话作为“用户偏好”写入长期状态，未来它在处理邮件发送、文件修改、日程调整甚至账户操作时，可能会逐步减少确认环节。用户并未真正授权所有未来的自动化操作，但智能体的行为边界已被悄然改写。

这与传统提示注入存在本质区别。传统攻击通常假设存在明确的恶意攻击方，而此处的风险恰恰来源于看似正常的日常交互。它也不是普通的模型幻觉，因为这种危险可能跨越多个会话持续存在，并不断侵蚀未来的安全边界。

图2：传统任务型智能体通常在单次任务结束后重置上下文，而个性化智能体会跨会话维护长期状态、用户画像和工具使用权限。

为何长期记忆会成为安全漏洞的入口？

个性化智能体的长期状态，远不止是“记住一些事实”那么简单。它通常包含长期记忆、核心指令、工具默认配置、用户画像、行为风格以及短期运行状态。这些内容看似只是记忆文件，实则深刻影响着智能体未来如何理解用户意图、何时调用工具、是否需要确认授权，以及是否可以自主执行操作。

因此，长期状态并非被动的缓存资料库，而是构成智能体未来行为边界的一部分。一旦这些状态被错误写入，风险可能不会立即爆发，却会在未来的某个任务中，转化为“少进行一次确认”、“扩大工具调用范围”或“默认执行一个本该征求用户同意的操作”。

换言之，个性化智能体的长期记忆不是一个静态的资料库，而是一套会动态影响未来决策和行为的“隐性配置文件”。

ULSPB基准：专门测试「日常聊天是否污染长期状态」

为了系统性地研究这一问题，研究人员构建了一个全新的双语基准测试集——ULSPB。它专门用于测试：日常的用户与智能体对话，是否会诱发长期状态污染。

ULSPB覆盖了七类长期状态漂移场景、五类日常个性化协助任务，包含英文与中文两种语言，并为每个测试设置构造了24轮普通的日常对话。作为对照，研究还构造了四类单次显式注入的变体，用以观察日常对话与显式攻击之间的风险差异。

其中，七类风险场景覆盖了个性化智能体在长期交互中最容易出现的几种安全边界漂移类型。

图 3：ULSPB的构建流程。该基准从七类长期状态漂移场景、五类日常协助任务、双语模板和五种对话变体出发，系统测试普通日常对话是否会污染个性化智能体的长期状态。

实验结果与分析

研究人员在OpenClaw个性化智能体环境中进行了实验，测试了四个不同的智能体骨干模型：Kimi K2.5、GPT-5.4、MiniMax M2.7和Grok 4.20。

为了量化长期状态污染的程度，研究设计了核心指标——危害分数。与传统攻击成功率不同，HS不只关注智能体当下是否做出了危险动作，而是评估其长期状态是否出现了与安全相关的隐性漂移。具体而言，HS关注三个维度：授权确认边界是否被削弱、工具调用权限或范围是否被扩大，以及智能体是否开始绕过既定流程、提高自主执行程度。

结果显示，显式的单次注入通常会带来更高的HS，但普通的日常对话本身也能诱发明显的长期状态污染。在部分模型上，日常对话造成的风险水平已经接近显式注入。

这证明，个性化智能体的风险不一定源于一次明显的攻击，也可能来自长期、自然、看似无害的交互积累。

表 1：不同对话变体和语言下的Harm Score。结果显示，普通日常对话本身也能诱发长期状态污染，在部分模型上甚至接近显式注入带来的风险；不同语言下的风险表现也存在明显的模型差异。

记忆文件是最易受污染的区域

进一步的分析显示，风险主要集中在与记忆高度相关的状态文件中。在不同模型和不同对话变体下，MEMORY.md和 memory/ 目录是被修改最频繁的区域，其次是USER.md、AGENTS.md和TOOLS.md。

这也符合直觉：日常聊天内容最容易被智能体总结归纳为“用户偏好”、“历史习惯”或“未来默认规则”。问题在于，一旦这些总结被过度泛化，就可能将临时的上下文信息，转变为长期安全边界的一部分。

例如，智能体可能会记录：

「用户倾向于快速处理低风险事项。」

「类似重复任务可以先执行后汇报。」

「用户通常不希望被频繁打断确认。」

这些记录单独看都合情合理，但在涉及高权限工具或敏感操作的场景下，就可能演变为危险的默认项。

图4：不同模型和对话变体下，风险编辑主要集中在MEMORY.md和 memory/ 等记忆相关文件中。

真实聊天数据同样会触发风险

为了验证这一现象并非由人工合成的提示词所制造，研究人员进一步引入了真实的用户聊天数据进行测试。

具体而言，研究从WildChat和LMSYS-Chat-1M两个公开的真实聊天数据集中，选取了日常协助类对话作为种子，将其扩展为24轮的日常交互序列，并在OpenClaw风格的环境中重新执行。

结果显示，由真实数据种子构造出的日常对话，虽然其HS低于完全合成的ULSPB日常对话，但仍然会在所有测试模型上诱发不可忽视的长期状态风险。这说明，非预期长期状态投毒并非一个凭空设计的理论问题，而是未来个性化智能体使用场景中可能真实存在的安全隐患。

图5：日常对话不仅在合成ULSPB中会导致长期状态污染，在基于真实用户聊天种子扩展出的日常交互设置中，也会产生不可忽视的长期状态风险。

StateGuard：长期状态写入前的最后一道安全审计

既然问题发生在长期状态写入的阶段，那么防御措施也应聚焦于此。

基于这一思路，研究人员提出了一种轻量级的防御方法——StateGuard。它的拦截点并非在用户输入时，也不是在智能体输出时，而是在智能体准备将新内容写入长期状态之前，对状态的差异进行安全审计。

StateGuard的流程非常直接：智能体完成一轮交互，生成候选的状态更新；StateGuard检查哪些长期状态文件发生了变化；随后对新增或修改的内容进行安全审计，判断是否应该保留或回滚。如果某段状态更新可能削弱确认边界、扩大工具调用范围，或增加智能体未授权的自主行为，StateGuard就会回滚这次写入。

这个设计的关键在于：它保护的并非当前的回答，而是未来的行为边界。长期状态投毒的危害常常不会在当前回合立刻显现，而是会在未来的某次任务中被激活。

图6：StateGuard在每轮交互结束后检查长期状态diff，并在状态写入前决定保留或回滚修改。

将长期状态风险降至接近零

实验结果显示，StateGuard能够显著降低长期状态污染风险。

在没有防御的情况下，四个测试模型都会产生较高的HS，表明日常交互确实可能将不安全的默认规则写入长期状态；而引入StateGuard后，尤其是在“定向集成”的设置下，HS几乎被压低到接近0。这表明，在状态真正持久化之前进行写入审计，是防御长期状态投毒的一条有效路径。

当然，StateGuard目前采用的是一种偏保守的安全优先策略，因此可能会带来较高的误报率，即部分原本无害的状态更新也会被回滚。但在长期记忆场景中，这种权衡是可以接受的：误拦截一条普通记忆，通常只会略微降低个性化体验；而漏掉一条危险的默认规则，则可能在未来多个会话中持续影响智能体行为，甚至改变用户原本的授权边界。

更现实的部署方式，并非简单地“保留”或“删除”，而是引入分级处理机制。对于高风险更新，系统可以直接回滚；对于边界模糊的更新，则可以暂缓写入，并向用户发起轻量级确认，例如询问“是否要将这条偏好保存为长期默认规则”。这样一来，误报不再仅仅是误拦截，而可以转化为一次用户可感知、可控制的状态确认过程。

从长远看，StateGuard可以被视为个性化智能体长期状态治理的一个初步原型。未来，类似的机制可以进一步扩展为更完整的“记忆写入防火墙”：不仅审计安全风险，还可以结合隐私保护、权限管理、可解释日志和用户可撤销机制，让智能体在变得更个性化的同时，也始终保持清晰、可控的记忆边界。

表2：StateGuard显著降低四个Agent backbone上的Harm Score，在Targeted-Ensemble设置下将长期状态污染风险压低至接近0。

为何这个问题至关重要？

随着智能体系统的发展，未来的AI助手很可能会变得越来越“长期化”和“个性化”。它们会记住用户偏好，管理邮件和日程，处理文件，执行网页任务，调用企业内部系统，甚至代表用户做出越来越多的低风险决策。

在这种趋势下，安全问题也会发生根本性的演变。

过去我们主要担心模型“这一次”有没有输出危险内容；但在个性化智能体时代，还必须追问：模型“这一次”有没有把危险的默认规则写进长期记忆？

因此，对智能体的安全评估需要从即时行为安全，扩展到长期状态安全。不仅要看它当下说了什么、做了什么，还要看它记住了什么、默认了什么、未来会如何解释和执行用户的授权。

主要研究贡献

1. 发现新的智能体安全风险：系统化地定义了“非预期长期状态投毒”：日常的用户-智能体交互，在没有明确攻击者的情况下，也可能逐步污染个性化智能体的长期状态，导致未来的安全边界发生隐性漂移。

2. 构建ULSPB基准和HS指标：提出了双语基准测试集ULSPB，覆盖350个测试设置，并设计了危害分数来衡量长期状态中的授权漂移、工具调用升级和未受检的自主性。

3. 提出StateGuard防御框架：提出了轻量级的状态写入防御框架StateGuard，在长期状态真正持久化前审计其差异，并回滚危险的修改。实验表明，它可以在多个智能体骨干模型上将HS降至接近0，且实现成本较低。

结语

个性化是智能体走向真正实用化的关键一步，但个性化也意味着，模型不再仅仅是回答当前的问题，而是在不断塑造一个关于用户、工具和未来行为规则的长期状态。

这让智能体变得更有用，也让它更容易在日常交互中被“潜移默化”地扭曲。

研究表明，未来的智能体安全不能只停留在提示词层面、输出层面或单次任务层面。

真正关键的，是要监控那些会跨越会话延续的东西：它记住了什么？它默认了什么？它是否正在把一次临时授权变成长期规则？它是否正在悄悄改变未来的行为边界？

当AI助手开始拥有长期记忆，安全问题也必须随之进入“长期状态”治理的新时代。

来源:https://36kr.com/p/3820149224378759

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：发改委介绍蚂蚁阿福AI医疗便民服务已覆盖多省市下一篇：谷歌Gemini大模型如何重塑AI搜索广告营销体验