强化智能体行为管控与追溯机制建设

时间：2026-05-22 08:46

在AI安全沙龙上，专家指出新一代自主智能体具有高自主、长周期、可交付特征，其落地应用伴随显著安全风险。内生安全、应用安全及衍生安全层面均存在隐患，如权限失控、过程不可追溯等。建议明确权限边界、加强行为过程管控、建立可追溯机制，通过技术与制度协同保障智能体安全发展。

在5月21日举行的“AI新治向系列沙龙——如何共守智能体安全底线”活动上，粤港澳大湾区生成式人工智能安全发展联合实验室高级工程师莫凡，为我们勾勒了自主智能体发展的清晰脉络与潜在风险。他指出，“高自主”“长周期”“可交付”是新一代自主智能体的三大核心特征，并围绕如何筑牢安全防线，给出了明确决策权限边界、加强行为过程管控以及建立可追溯机制等关键建议。

粤港澳大湾区生成式人工智能安全发展联合实验室高级工程师莫凡做“自主执行类智能体服务安全风险治理”主题分享。

自主智能体迈入落地新阶段

在主题分享中，莫凡梳理了技术演进的清晰路径。2024年以来，大模型技术持续迭代，已经完成了从“智能对话”到“工作流自动化”，再到“自主执行智能体”的三级进阶，真正开启了规模化落地的新时代。

最初的阶段，是以ChatGPT为代表的“智能对话”。它们依托海量知识库实现问答交互，语言输出能力令人惊艳，但缺乏实际执行权限，更像是一个博学的顾问，无法直接落地实操。

随后进入第二阶段，即“工作流自动化”，以Coze、Dify等平台为代表。这类工具可以通过预定义的流程串联模型调用，参与到各类工作的执行中。不过，整个过程依然高度依赖人工编排，自主能力相对有限。

而当前我们正步入的第三阶段，是“自主决策执行”。以OpenClaw（龙虾）为代表的新一代智能体，构建起了“感知—决策—执行”的完整闭环，能够自主完成复杂的业务任务，俨然化身为高效便捷的“数字员工”。

经过多年的技术积淀，国际上的OpenAI、Google等巨头持续夯实智能体技术基础。与此同时，国内厂商如月之暗面、智谱AI、MiniMax等，也在2025年前后密集推出了自研的智能体产品。这股合力，正推动技术快速成熟，并迎来应用的全面爆发。

那么，新一代自主智能体究竟有何不同？其核心特征可以概括为三点：高自主、长周期、可交付。

所谓“高自主”，意味着选择权正从人类向模型转移，智能体能够自主完成从分析到操作的全流程。“长周期”则突破了传统大模型在单次对话或简单工具使用上的局限，具备了持久记忆与跨场景任务衔接的能力。而“可交付”更是打破了以往仅输出内容或建议的局限，能够直接生成完整的报告、甚至可运行的系统，这无疑将AI的落地效率提升到了一个新的量级。

需多方施策筑牢安全合规底线

然而，技术飞速迭代的另一面，是安全风险的持续放大。传统大模型固有的脆弱性，在获得了自主执行权限的加持后，其风险性质已全面升级——从可能产生误导的“话术偏差”，演变为可能造成“实质性危害”的行动。

莫凡从内生安全、应用安全、衍生安全三个维度，剖析了当前智能体面临的核心安全隐患。

在内生安全层面，指令遵循不足、决策过程如同黑盒、模型“幻觉”等问题依然存在。而当这些缺陷与失控执行、恶意提示词攻击、供应链投毒等风险叠加时，其破坏力不容小觑。已经发生的一些典型案例为我们敲响了警钟：例如PocketOS智能体违规删除企业全量数据库、恶意Skill投毒造成全球用户巨额加密货币损失等事件，都凸显了智能体内生安全漏洞可能带来的巨大危害。有数据显示，超过三成的智能体Skill存在安全缺陷，其攻击的隐蔽性和破坏性都极强。

在应用安全层面，智能体的高权限属性直接导致其风险破坏力大幅提升，极易引发数据损坏、信息泄露等问题。同时，任务执行过程不可控、高危行为的界定标准缺失，也给安全管控带来了极大的难题。

衍生安全层面的挑战则更为复杂，行业正面临多重治理困境。首先，智能体已经具备了较高的独立决策和执行能力，但现有的监管框架主要仍聚焦于传统的问答交互模式，“能力与权责脱节”的情况逐步显现。其次，智能体开发工具的平权化，大幅降低了恶意攻击的技术门槛，使得风险面持续扩张。最后，AI法律责任归属的界定仍待明晰，在涉及开发者、部署者、使用者等多重角色的商业场景中，亟需进一步加强合规指引。

面对这些交织的风险，该如何治理？莫凡的建议指向了几个关键环节：必须明确智能体的决策权限边界，确保用户拥有最终决策权；需要强化全流程的行为管控，杜绝任何越权违规操作；同时，要搭建全链条的可追溯机制，实现行为全程留痕、事后可溯源。

此外，还需要持续提升智能体的内生安全能力，并建立针对未成年人等特殊群体的精准识别机制，以防范特定使用风险。最终的目标，是通过技术防控与制度约束双向发力，推动智能体技术创新与安全治理的协同发展。

本次“AI新治向”系列沙龙由粤港澳大湾区生成式人工智能安全发展联合实验室、南方都市报社主办，并得到了广东省网络数据安全与个人信息保护协会的支持。活动吸引了相关政府部门、司法、学界、企业及媒体等多方代表参与，大家聚焦国家网信办、国家发展改革委、工业和信息化部联合印发的《智能体规范应用与创新发展实施意见》核心要求，共同剖析智能体应用安全风险的底层逻辑，探讨多元共治与创新实践的可行方案。

来源：https://www.163.com/dy/article/KTFVU39V05129QAF.html

实验室