智能体时代正在快速逼近,一个现实摆在面前:AI不仅会“思考”,还会“行动”。而一旦能行动,安全问题就从“内容问题”升级为“系统问题”。所以,必须建立一套独立、客观且具备强制干预能力的外部监控体系,用硬性的规则和独立的监管者来时刻守卫底线。
近日,北京智源人工智能研究院、北京邮电大学与中国信息通信研究院联合发布了ClawKeeper v1.0,目标是面向OpenClaw打造全方位实时安全框架。这套框架的首创之处在于“技能(Skill)、插件(Plugin)、观察者(Watcher)”三位一体的防御架构,覆盖智能体全生命周期安全,尤其适合高安全需求的局域网智能体集群监控管理。目前项目已在GitHub开源,相关研究论文同步发布。

图源:AI生成
OpenClaw在狂飙突进、掀起全民“养虾潮”的同时,悬在头顶的安全“达摩克利斯之剑”却不容忽视。当它拥有了调用工具、读写文件甚至直接控制操作系统的权限,带来的风险也越发致命:提示注入、密钥泄露、行为失控、恶意技能——一次失误就能带来严重后果。比如国外科技巨头的企业高管在部署OpenClaw时,因大模型的上下文压缩机制导致遗忘了关键指令,结果突然失控,狂删200多封邮件;还有近期爆出的OpenClaw远程代码执行漏洞CVE-2026-25253,使攻击者能够远程注入并执行恶意命令,直接威胁系统控制权与敏感数据安全。
然而,面对OpenClaw层出不穷的安全风险,当前的防御手段却始终“跟不上节奏”。核心存在4大局限:
第一,覆盖范围碎片化。现有方法大多只针对提示注入、内存投毒等单一威胁,只覆盖智能体生命周期的某一个环节,无法形成全流程、统一的安全防护体系。
第二,存在安全与实用的两难抉择。多数解决方案依赖于嵌入在OpenClaw内部的技能和插件来执行安全约束,这要求智能体必须在“完成任务”和“遵守安全合规性”这两个相互竞争的目标之间进行平衡,不可避免地陷入为了满足其中一个目标而牺牲另一个目标的困境。
第三,防御方式较为被动。安全防护只能在对抗性行为发生之后,通过分析日志和行为模式来识别安全问题,这无异于亡羊补牢。
第四,防御模式属于静态防御。目前许多防御规则都是一成不变的,然而新型威胁不断涌现,静态防御就像刻舟求剑,根本无法应对不断迭代的安全挑战。要破解这一困局,核心就是打破“防御跟不上进化”以及“安全与效率对立”的死循环。
智源研究院提供了一种全新的破局思路:用智能体监管智能体。这一范式的核心是:部署一个完全独立于OpenClaw业务之外的杀毒软件,不干扰业务执行,却能实现实时拦截和同步进化。既能从“事后复盘”转向“事前防御、事中拦截”,提前规避风险,又能随着OpenClaw的能力升级同步更新防御规则,彻底摆脱静态防御的局限,真正打破安全与效率的零和博弈。
三层防御架构:从指令到运行时的“铜墙铁壁”
ClawKeeper并非单一的补丁,而是一个集成了多维度保护机制的实时安全框架,包含三大核心防御组件:
第一层:Skill-based(技能级别防护)—— 指令层次的护城河。在指令级别进行操作,将结构化的安全策略以Markdown文档的形式直接注入到智能体的上下文中,并辅以安全扫描脚本,强制执行特定环境(如Windows操作系统)和跨平台(如飞书等通讯软件)的安全边界限制。
第二层:Plugin-based(插件级别防护)—— 运行时的内部监控。作为内部运行时的强制执行器,这层防护紧密嵌入在OpenClaw内部。插件层负责进行配置加固、主动威胁检测,并在整个执行管道中提供持续的行为监控与审计,提供硬性的安全强制保障。
第三层:Watcher-based(监管者级别防护)—— 系统级的独立天眼。这是ClawKeeper最硬核的杀手锏,它引入了一个全新的、解耦的系统级安全中间件:独立监管者(Watcher)。简单来说,ClawKeeper提供了专门的安全智能体,负责监管OpenClaw的安全执行。监管者与执行任务的OpenClaw相互独立,不参与其内部任务处理逻辑。这意味着即使智能体本身被攻击者诱导操控、行为出现异常失控,ClawKeeper依然可以凭借独立的全局视角进行实时干预,例如紧急熔断高风险操作,或强制要求人类介入确认。

图1 ClawKeeper概述图(图源:AI生成)
从功能上看,ClawKeeper并不是单一的安全工具,而是一整套面向智能体系统的安全基础设施。它既可以在运行前扫描环境和依赖漏洞,也可以在运行过程中实时评估智能体行为并拦截高风险操作,同时通过行为画像和轨迹分析识别异常行为和目标偏移。此外,系统还提供配置完整性保护、第三方扩展安全审查、自动加固与回滚机制以及全流程日志审计,并通过威胁情报库不断学习新的攻击模式,形成一个可以持续进化的智能体安全体系。

图2 ClawKeeper功能介绍
为什么ClawKeeper是OpenClaw的智能体安全规则改变者?
ClawKeeper真正的核心创新是独立监管者设计。监管者不是一个安全模块,而是一种新的智能体安全架构范式。过去的安全方案都试图让智能体既干活又守规矩,但这两个目标天然冲突,使得智能体难以在处理复杂任务时同时保证安全性能。监管者的思路完全不同。在ClawKeeper的框架设计中,实现了让专业的智能体负责专业的事情:执行用户任务的智能体专心解决任务,而监管者智能体专门负责其他智能体的安全。监管者只与智能体进行交互。因此,安全不再依赖OpenClaw执行任务时是否合规安全,而是变成一个独立系统的实时监督,实现了利用OpenClaw来监控OpenClaw。
ClawKeeper的设计之所以重要,主要体现在以下四个方面:
第一,监管独立。安全与任务彻底解耦,有效缓解传统安全性与效用之间的权衡。
第二,自进化安全。监管者本身也是一个智能体,可以根据安全相关的交互和新出现的风险不断更新自身的技能和记忆,成为自适应、自进化的安全层。
第三,通用框架。不依赖特定智能体系统。ClawKeeper并非仅限于OpenClaw,只需在任务智能体和监管者之间建立通信信道就可以适配任何智能体系统。
第四,灵活部署。既可以本地运行满足个性化使用场景需求,也可以企业级部署适应企业内部网环境。
ClawKeeper真实场景表现如何?
为了验证防御效果,研究团队将ClawKeeper投入到真实的使用场景中进行全面测试。ClawKeeper直接把系统放进真实使用场景中做测试,结果很直观:从系统层到应用层,再到执行过程,风险几乎无处可逃。
第一层:Skill-based —— 在输入阶段就拦下风险。在技能层,ClawKeeper聚焦于解决一个核心隐患:智能体在尚未执行任何实质动作前,就容易被恶意的提示词或伪装的指令“带偏”。现有的智能体极易受环境上下文的误导,一旦接受了包含陷阱的初始输入,后续的整个行动轨迹都可能走向失控。为此,ClawKeeper在指令解析阶段就直接介入,将结构化的安全策略作为前置条件注入到Agent的上下文中。这意味着,智能体在思考之初就被赋予了明确的安全边界意识,能够自主审视输入指令的合法性。
这种将安全防线前置的策略,在不同层面的交互中展现出了极强的实用性:
在操作系统层面(以阻断恶意指令为例):当OpenClaw面对经过混淆的Base64恶意载荷时,可以在解码后直接识别出潜在的“代码注入”风险,并明确拒绝执行该危险指令(如图3所示)。
在第三方软件场景层面(以防止数据外泄为例):当风险从底层系统转移到具体的应用软件(如飞书)时,防御逻辑也需进行独特适配。当用户尝试发送密码等敏感信息时,系统会即时识别并向用户发出醒目的安全警示(如图4所示)。

图3 操作系统层面阻断恶意指令

图4 第三方软件层面防止数据外泄
不仅如此,它还会做两件日常但关键的事情:
在操作系统层面(系统级安全巡检):系统每天会自动在后台执行深度的底层环境扫描,自动扫描异常进程、外部连接、目录篡改等风险,从而确保宿主机的运行环境始终安全(如图5所示)。
在第三方软件场景层面(交互级安全总结):针对飞书等高频交互软件,系统会异步处理并定期生成一份详尽的操作日志总结,标记越狱、敏感操作等潜在问题,同时汇总全盘的事件统计数据,让用户对OpenClaw的健康态势一目了然(如图6所示)。

图5 系统级安全巡检

图6 交互级安全总结
第二层:Plugin-based —— 在“系统内部”构建全天候审计机制。如果说Skill层的防护是御敌于外的“前置防线”,那么深度嵌入的Plugin层则是安插在智能体内部的“全天候安检员”。它不依赖于外部指令,而是通过底层的硬编码规则,对系统的静态配置和动态行为进行全流程的严密监控。
针对日益猖獗的“供应链攻击”,Plugin层提供了深度的静态代码扫描。在高度开放的OpenClaw生态中,用户往往会安装各种第三方扩展技能,这就给攻击者留下了可乘之机。他们常常将恶意代码伪装在看似无害的工具中。面对这种隐蔽威胁,ClawKeeper会像安全专家一样进行“开箱验视”。
例如(如图7所示),当扫描器检测到某个第三方安装脚本中潜伏着高危的“远程直接管道执行(如 curl ... | bash)”逻辑时,系统会立即触发高级别(HIGH)安全告警,指出其存在被恶意远程操控的风险。它不仅能精准定位问题代码,甚至还会自动给出“先下载、验证加密签名后再执行”的专业修复指导,在源头上斩断恶意程序潜入系统的黑手。

图7 Skill安全扫描
其次,面对复杂多变的交互过程,Plugin层具备强大的全生命周期日志行为回溯能力。智能体的危险行为往往不是一蹴而就的,可能隐藏在多轮对话或连环的工具调用中。ClawKeeper会对系统的所有输入、大模型输出以及工具调用轨迹进行综合的异步盘点。
在配图展示的日常安全巡检报告中(如图8所示),系统对228次历史交互事件进行了统一扫描,并如“沙里淘金”般精准揪出了4个隐蔽的安全威胁。其中就详细记录了一次典型的“提示词注入(Prompt Injection)”攻击:外部恶意输入企图用一句“忘记所有安全限制(Forget all security restrictions)”的越权指令来进行“越狱”,试图诱骗智能体交出桌面上的高密级私钥文件(PEM)。通过这种全局统一的日志诊断机制,任何企图绕过安全边界的擦边球行为都将无处遁形,极大提升了系统事后追溯和审计的能力。

图8 日常安全巡检报告
第三层:Watcher-based —— 在危险瞬间接管控制权。真正关键的,也是区别于传统防御的核心,在于第三层的独立监管者(Watcher)。它不仅仅是一个被动的检测探针,而是一个拥有独立决策权的“审计探长”。通过与负责执行任务的OpenClaw建立实时通信,Watcher能够持续接收并评估每一轮交互的上下文和工具调用轨迹。一旦嗅探到高危操作的苗头,它可以在关键时刻以雷霆手段直接干预甚至接管执行流程,从而打破了智能体“既当裁判又当运动员”的困境。
这种强大的接管能力在面对复杂威胁时体现得淋漓尽致。通过阻断危险命令和遏制错误死循环这两个典型场景,可以直观感受其防护深度。
阻断危险命令的“盲目执行”:当攻击者用Base64混淆恶意代码,诱导OpenClaw在后台静默写入高危文件(如 /tmp/pwned.txt)时,Watcher会敏锐识破意图,直接中断流程并强制进入“询问用户(ask_user)”状态,严守“人在回路”的安全底线。

图9 阻断危险命令执行
遏制错误行为的“无限死循环”:当OpenClaw遭遇权限不足等下游报错时可能会陷入无限重试的死循环,Watcher能跳出局部任务视野,果断下达“终止运行(stop)”指令,强行叫停可能导致系统无限循环或崩溃失控的工作流。

图10 遏制错误行为
实验结果:全方位防御与“越战越勇”的自我进化
为了客观评估ClawKeeper的实战表现,研究团队构建了涵盖提示词注入、凭据泄露、危险命令执行、恶意技能库等7大核心高危场景的基准测试,并将其与目前主流的多个开源防御项目(如OpenGuardrails、ClawSec等)进行了正面交锋。
实验结果展现了ClawKeeper在安全防护上的压倒性优势:
全域覆盖,打破“偏科”困局(全面性测试):从对比数据可以看出,现有的单点防御工具往往顾此失彼,最多只能覆盖1到3类安全场景,且防御成功率大多在45%到70%之间徘徊,存在巨大的安全盲区。相比之下,ClawKeeper不仅实现了对7大类威胁的100%全覆盖,更将各项防御成功率全面拉升至85%到90%的极高水平。这充分证明了系统化防御相较于“头痛医头”式碎片化防御的绝对优势。

表1 ClawKeeper在7种安全任务上的防御成功率以及与基线方法的对比
持续学习,会成长的安全守卫(自我进化测试):更令人瞩目的是Watcher(监管者)在连续对抗中的成长曲线。传统的静态规则往往会随着新型攻击手法的出现而逐渐失效,但ClawKeeper打破了这一宿命。实验表明,在连续处理100个全新的对抗性攻击样本时,Watcher能够不断从实战中汲取经验,动态更新自身的威胁识别记忆池。它的防御成功率从最初的90%一路稳步攀升至95%。这意味着ClawKeeper并非一面死板的防火墙,而是一个会在实战中自动进化、越战越勇的“安全专家”。

图11 ClawKeeper监管者防御成功率自进化曲线图
结语
智能体时代正在快速逼近,一个现实摆在面前:AI不仅会“思考”,还会“行动”。而一旦能行动,安全问题就从“内容问题”升级为“系统问题”。
未来,智能体必将进一步深入系统核心、掌握更多的关键权限。在这样的必然趋势下,如果没有ClawKeeper这样硬核的安全框架保驾护航,智能体再强大的能力都无异于在巨大的风险中“裸奔”。
ClawKeeper的核心价值正是打破了“让AI自己管自己”的乌托邦幻想。它提醒我们,在复杂多变的真实环境中,绝不能只寄希望于将系统的操控大权完全托付给智能体自身的内部对齐或道德约束。相反,我们必须建立一套独立、客观且具备强制干预能力的外部监控体系,用硬性的规则和独立的监管者来时刻守卫底线。
GitHub:https://github.com/SafeAI-Lab-X/ClawKeeper
论文链接:https://arxiv.org/abs/2603.24414
