OpenClaw爆火背后12类安全漏洞 MCP协议安全基准深度解析

首页

热心网友

转载

2026-05-19

近期，开源AI智能体项目如OpenClaw在开发者社区中引发了广泛关注。仅需一句自然语言指令，它便能自动编写代码、检索信息、操作本地文件，甚至接管计算机系统。这种高度自主的行为能力，其核心支撑在于强大的工具调用技术，而模型上下文协议（MCP）正是统一AI工具生态的关键标准化接口。它如同电子设备中的USB-C接口，使大型语言模型能够以统一、便捷的方式调用文件系统、浏览器、数据库等多样化的外部工具。面对日益庞大的工具生态，即便是主打原生命令行交互的OpenClaw，也通过适配器接入了MCP协议，以获取更强大的功能扩展。

然而，当AI的“触手”不断延伸，潜在的安全威胁也悄然浮现。试想，如果智能体调用的工具本身已被恶意篡改呢？如果工具返回的错误信息中隐藏着精心构造的恶意指令呢？一旦大型模型不加甄别地执行了这些指令，用户的隐私数据、本地文件乃至服务器控制权限，都可能瞬间被攻击者窃取。

为了填补MCP生态在安全评估领域的空白，来自北京邮电大学等机构的研究团队推出了首个专门针对MCP协议的安全评测基准：MSB。他们的研究揭示了一些值得警惕的发现：针对MCP工作流程每个阶段的攻击均能奏效，并且，性能越强大的模型，在某些情况下反而越容易受到诱导。这项重要研究成果已被ICLR 2026会议接收。

智能体背后的MCP安全漏洞剖析

图1：MCP攻击框架示意图

MCP在极大拓展智能体能力边界的同时，也同步扩大了潜在的攻击面。在MCP标准流程下，智能体的工具调用通常包含三个关键阶段：

1. 任务规划：智能体根据用户查询，通过分析工具的名称与描述来筛选并确定要使用的工具。

2. 工具调用：智能体向选定的工具发送执行请求，并传入必要的参数以完成具体操作。

3. 响应处理：智能体解析工具返回的执行结果，并基于此决定后续推理步骤或生成最终答复。

上述每一个阶段都可能成为新的安全突破口。MSB基准全面覆盖了完整的MCP工具调用链路，专为评估基于MCP构建的智能体安全性而设计，其架构拥有三大核心优势。

系统化的MCP攻击分类体系

在MCP工作流中，智能体通过工具标识（名称与描述）、调用参数以及工具响应与外部环境交互，这些交互点均可能遭受攻击。MSB依据攻击途径和发生阶段，将攻击类型系统性地划分为以下几类：

工具签名攻击：在任务规划阶段，针对工具名称和描述进行攻击。具体包括：

- 名称冲突：伪造一个与常用工具名称高度相似的恶意工具，诱导智能体错误选择。

- 偏好操纵：在工具描述中植入带有倾向性或宣传性的语句，影响智能体的工具选择优先级。

- 提示注入：直接在工具描述中嵌入隐蔽的恶意指令。

工具参数攻击：在工具调用阶段，通过操纵传入参数进行攻击。例如：

- 越权参数：设置超出工具正常功能边界的参数，通过参数传递引发数据泄露等安全事件。

工具响应攻击：在响应处理阶段，利用工具返回的结果进行攻击。主要包括：

- 用户模拟：在响应中伪装成用户身份，向智能体下达恶意指令。

- 虚假错误：提供伪造的工具执行失败信息，要求智能体遵循特定（恶意）指令才能“成功”调用。

- 工具重定向：指示智能体转而调用另一个预设的恶意工具。

检索注入攻击：在响应处理阶段，通过外部资源进行攻击。例如：

- 检索注入：使工具返回嵌入了恶意指令的外部资源链接或内容，从而污染或操控智能体的决策上下文。

混合攻击：跨越多个阶段，同时利用多个工具组件发起组合式攻击，即对上述单一攻击方式进行叠加融合。

基于真实运行环境的执行测试套件

MSB基准摒弃了脱离实际的模拟评测。它集成了真实的MCP服务器，覆盖10个典型应用场景、405个真实可用的工具以及超过2000个攻击测试实例。所有测试均在真实的MCP运行时环境中执行，能够直接观测攻击行为对系统环境状态造成的实际影响与破坏程度，从而更精准地反映现实风险。

平衡性能与安全的综合评价指标NRP

在评估智能体安全时，仅关注攻击成功率具有误导性。如果一个智能体为了绝对安全而“因噎废食”，拒绝执行任何工具调用，其攻击成功率可能趋近于零，但同时也完全丧失了实用价值。

为此，MSB提出了一个更全面的核心指标——净弹性性能。其计算公式为：NRP = PUA × (1 - ASR)。其中，PUA代表智能体在遭受攻击的环境下，仍能成功完成用户原始任务的比例；ASR即攻击成功率。NRP旨在综合量化智能体在有效抵御攻击的同时，维持其核心任务性能的整体稳健性，为权衡功能与安全提供了科学的度量标尺。

图2：NRP与ASR、PUA三者关系示意图。

所有攻击方式均被证实有效

图3：主实验评估结果。

研究团队利用MSB基准对GPT-5、DeepSeek-V3.1、Claude 4 Sonnet、Qwen3等10款主流大模型进行了大规模安全测试。结果显示，所有分类下的攻击方式均表现出显著有效性，总体平均攻击成功率达到了40.35%。其中，MCP引入的新型攻击手段更具威胁性，相较于传统函数调用中已存在的提示注入和检索注入，基于MCP的用户模拟和虚假错误攻击成功率更高。而混合攻击则展现出“1+1>2”的协同增强效应，其成功率超过了构成它的任何单一攻击方式。

能力越强的模型反而越脆弱？

不同评估指标间的关联揭示了一个反直觉的发现：综合能力越强的模型，在某些攻击场景下可能反而更易受侵害。

图4：PUA（任务完成率）与ASR（攻击成功率）的关联分析。

在MSB的测试设定中，完成攻击任务本身也需要智能体成功调用工具（例如，使用文件读取工具来窃取信息）。因此，实用性强、工具调用与指令遵循能力出色的LLM，在展现出更高用户任务完成率的同时，也暴露出了更高的攻击成功率。这一发现凸显了MCP安全漏洞在现实应用中所蕴含的严峻风险。

全阶段、多工具环境下的普遍威胁

图5：不同工作阶段及工具配置下的攻击成功率对比。

进一步从MCP工作流程和工具配置角度分析发现，在MCP的各个阶段，智能体均普遍存在安全弱点，尤其在工具调用阶段，模型的安全性最低。此外，即使在配备了多个无害工具的环境中，攻击依然能够有效实施。现实应用场景中，智能体通常拥有一个丰富的工具集，但即便存在无害工具选项，通过名称冲突、偏好操纵和工具重定向等诱导方式，攻击者仍能取得显著的攻击成功。