近日,360 AI安全研究院发布的《AI安全系列报告:智能体安全新范式——当AI有了“手和脚”,企业安全边界必须重建》在业界引发深度讨论。报告揭示了一个关键趋势:随着AI智能体深度嵌入企业办公、研发、运维及客服等核心业务流,AI安全的核心矛盾正从“生成风险”转向“执行风险”。
过去,大模型安全讨论多聚焦于内容风险,如事实性错误、违规输出或信息泄露,这类似于担忧一位知识渊博但言辞不当的顾问。然而,当智能体被赋予执行能力,能够自主调用工具、访问数据库、执行现实任务时,风险性质发生了根本变化。核心威胁不再是它“说了什么”,而在于它实际“做了什么”。一个被恶意诱导或存在逻辑缺陷的智能体,完全可能在权限合规、工具授权、流程标准的情况下,执行偏离业务目标甚至突破安全防线的操作。
报告精准提出了“合法动作的非法后果”这一概念,刻画了新型风险形态:智能体身份合法、工具授权、流程规范,但由于恶意诱导、上下文污染或自身逻辑问题,最终执行可能导致数据泄露、业务中断或合规违规。此类风险隐蔽性强,传统基于身份与权限的静态安全边界难以有效防御。
智能体安全六层攻击面模型
风险源头何在?企业防线应如何构建?报告建立的“智能体安全六层攻击面模型”清晰描绘了安全战场。该模型将企业级智能体的潜在攻击面分解为六个层级:人机交互层、通信调用层、组件间层、智能体之间、工具调用层和基础运行环境层。
这一分层框架的价值在于,引导企业超越单点防御思维,从身份、工具、数据、记忆、行为及运行环境等多维度,系统性审视并重建安全体系。面对复杂挑战,360提出的应对策略聚焦于三大核心:意图检测、环境隔离与逻辑纠偏,并致力于构建“端+云+管理平台”的能力闭环。
具体而言,在终端及主机侧,重点在于确保智能体运行环境可控,实现高风险动作的实时阻断与敏感数据的异常访问防护。在云端,则持续进行Skill(技能)安全检测、漏洞运营、风险特征库沉淀及安全策略迭代。统一管理平台承担智能体资产发现、全局风险可视化、全链路行为审计与一体化策略编排职责,推动企业智能体安全从孤立防护迈向体系化治理。
报告进一步明确了AI安全的两大问题域:一是“确定性计算”中的传统安全问题,如软件漏洞、网络入侵、权限滥用、配置错误及供应链风险,这些问题具备相对清晰的规则与边界;二是“不确定性计算”带来的全新挑战,例如提示词注入、工具投毒、意图篡改、返回值污染及智能体误执行,这类风险源于大模型自身的可诱导性与不可预测性。
应对这两类问题需双线并行。一方面,利用AI技术增强传统安全防护,提升漏洞挖掘、入侵研判、恶意样本分析及应急响应的效率与精度。另一方面,更为关键的是为不确定性任务套上“安全缰绳”,通过技术手段确保智能体在既定、可信的边界内执行任务,实现“高效做事,绝不越界”。
报告特别指出,Skill正成为智能体生态中的关键风险入口。作为智能体连接外部工具与业务系统的桥梁,Skill实质上已延伸为智能体能力链的一部分。这意味着,一个存在安全漏洞或被恶意篡改的Skill,其危害可能远超插件本身,可能成为攻击跳板,危及企业账号体系、核心数据资产、关键业务系统,甚至引发重大合规危机。
近期备受关注的OpenClaw等智能体平台正是这一生态的典型代表。在这些平台上,智能体完成邮件发送、数据查询、文件处理及业务流程驱动等任务,极大依赖其可调用的Skill。因此,此类平台的安全是一个立体化课题:既包括智能体本体安全,也涵盖Skill的准入审核、权限最小化分配、运行全链路审计及工具调用的统一治理。
十大高风险Skill类型
针对Skill这一核心风险点,360沙箱云-SKILLS分析平台提供了针对性解决方案。该平台面向AI Agent Skill生态,提供安全检测与云鉴定能力,支持通过Skill文件压缩包、详情页链接或下载地址等多种方式提交检测。检测流程覆盖静态代码分析、AI意图识别、动态沙箱行为监控及持续威胁运营,旨在帮助Skill开发者、企业安全团队及最终用户,在Skill正式部署前,提前发现并阻断潜在安全威胁。
报告结论明确而有力:智能体安全的核心要义绝非限制其能力发挥。恰恰相反,真正的挑战与目标在于构建坚固且智能的可信边界,使智能体能够充分发挥效率优势,“在边界内正确行事”。这标志着AI安全范式的一次根本性转向,也是所有正在或计划部署智能体的企业必须直面并深入应对的全新课题。
