游乐游手机版
首页/AI热点日报/热点详情

AI Agent工作安全如何跟上?AgentDoG 1.5开源

类型:热点整理2026-06-29
AIAgent正从聊天助手转变为可执行任务的工作伙伴,其安全风险也从内容安全转向完整执行轨迹的安全诊断。为此,上海人工智能实验室发布AgentDoG1 5,一个轻量化、可扩展的安全诊断与在线护栏框架,通过三维细粒度分类体系实现风险归因、行为诊断与在线干预,支撑安全训练与部署。

你是否已经察觉到?最近“同事.skill”(colleague.skill)在开发者社区中迅速走红,许多人第一次真切体会到:AI Agent 正从“聊天助手”悄然转变为“工作伙伴”。

当AI Agent开始工作,安全该如何跟上?AgentDoG 1.5开源发布

Agent 的功能已经远超简单问答。它开始继承一个人的工作习惯、任务流程、知识背景,甚至是决策逻辑。在 Claude Code、Hermes、OpenClaw、Codex 等 Agent 宿主中,它被调用、部署,逐渐演化成一种新型工作单元:辅助人类完成任务,甚至在某些场景下直接接管部分具体操作。

与此同时,安全问题的复杂度也急剧攀升。过去讨论大模型安全时,我们主要判断用户输入是否存在危害,或模型输出是否合规。进入 Agent 时代后,风险不再局限于一条 prompt 或一条回复。它可能隐藏在工具描述里、出现在环境反馈中、被写入长期记忆或会话状态——甚至通过一次错误的工具调用、一次未经验证的命令执行、一次跨应用操作,直接影响到真实文件、账户、代码仓库,乃至整个业务系统。

因此,Agent 安全已不再是“内容安全”那么简单,而是演变为完整执行过程中的行为诊断、风险归因和在线干预问题。

围绕这一方向,上海人工智能实验室发布了 AgentDoG 1.5:一个面向 AI Agent 的轻量化、可扩展安全诊断与在线护栏框架。相关论文已上线 arXiv,代码、模型和数据全部开源。

  • 论文链接:https://arxiv.org/abs/2605.29801
  • 项目链接:https://github.com/AI45Lab/AgentDoG
  • Hugging Face:https://huggingface.co/collections/AI45Research/agentdog15

从“看输出”到“看轨迹”

AgentDoG 1.5 的设计思路非常直观:Agent 的安全风险往往出现在完整执行过程中,而不仅仅在最终回复那一刻。一个 Agent 可能在最终回复中显得一切正常,但它之前可能已经错误调用了工具、泄露了信息、执行了危险命令,或者被外部环境中的恶意内容诱导,发生目标偏移。

因此,安全评测不能仅关注最终输出。正确的方法是:将完整的 agent trajectory 作为判断对象。

在 AgentDoG 1.5 中,模型会综合分析用户请求、Agent 中间响应、工具调用、环境反馈和最终回复,对整条轨迹进行安全诊断。它不仅判断一条轨迹是 safe 还是 unsafe,还会输出三类细粒度诊断信息:Risk Source(风险来源)、Failure Mode(Agent 的失败模式)、Real-world Harm(失败造成的实际危害)。

借助这三维诊断,安全判断不再是一个简单的是或否,而是能够进一步支持风险定位、模型训练、基准构建,甚至部署阶段的在线拦截。

面向快速变化的 Agent 平台,分类体系也必须可扩展

Agent 系统的发展速度极快,不同平台面临的风险也截然不同。通用 tool-use agent、OpenClaw 这类跨应用执行 Agent、Codex 这类面向代码仓库和命令执行的 Agent——它们在执行环境、工具边界、状态管理和潜在危害上都有明显差异。如果每出现一个新 Agent 平台就重新设计一套安全标签和评测任务,整个护栏体系很快就会变得碎片化。

AgentDoG 1.5 的解决方案是:保持 Risk Source、Failure Mode、Real-world Harm 这三个高层维度不变,在不同执行场景下扩展和细化叶类别

举个例子:在 OpenClaw 场景中,风险可能来自持久会话、审批绕过、技能或插件供应链、跨工具攻击链、跨通道路由错误,或者无人值守自动化执行;而在 Codex 场景中,风险则可能源自仓库文件注入、依赖或 MCP 供应链问题、危险 shell/script 执行、破坏性工作区修改,以及未经验证的测试或成功声明。

基于这一思路,论文进一步构建了 ATBench Family。ATBench 面向通用 tool-use agent,ATBench-Claw 面向 OpenClaw 执行场景,ATBench-Codex 面向 Codex 执行场景。三者共享同一个 trajectory-level diagnosis task 和三维分类框架,同时针对不同执行环境扩展具体风险类别。这样既保持了跨场景的可比性,又能持续适配新的 Agent 平台。

仅用约 1k 高质量样本,训练轻量 AgentDoG 1.5

训练过程中,论文没有简单堆叠数据,而是构建了 taxonomy-guided data engine,通过三维分类体系控制数据生成过程。风险从哪里进入、Agent 如何失败、会造成什么现实危害——这些在数据构造阶段就被系统性建模。随后,团队用 GPT-5.4 作为 teacher,为训练样本补充 chain-of-thought rationale,让学生模型不仅学习最终判断,也学会从轨迹证据到安全判断的推理过程。

原始合成数据往往含有噪声、冗余和低价值样本,因此 AgentDoG 1.5 进一步引入 influence function-based data purification,从原始数据中筛选出最有助于学习护栏行为的高质量样本。

最终,AgentDoG 1.5 仅使用了约 1k 条高信息量样本,就训练出了 0.8B、2B、4B 和 8B 等多个轻量模型版本。

实验结果充分证明了其有效性:AgentDoG 1.5 在轨迹级安全判断和细粒度风险诊断上表现非常出色

以 4B 模型为例,它在 R-Judge 上达到 92.2% 准确率和 92.7% F1 分数,在 ATBench 上达到 72.4% 准确率和 74.3% F1 分数;在细粒度风险诊断中,AgentDoG 1.5-4B 在 Risk Source、Failure Mode、Real-world Harm 三个维度的平均得分达到 55.2%,相比 AgentDoG 1.0 有明显提升。

这些数据表明:只要数据足够贴近 Agent 风险结构,监督信号足够清晰,完全可以将可靠的 agent safety judgment 能力蒸馏到较小规模的模型中

构建轻量级 Agent 训练管线,支持超一万并发

AgentDoG 1.5 不仅用于离线评测,还被集成到 agentic safety training pipeline 中。这条训练管线包含两部分:一是面向 SFT 的高质量安全数据过滤,二是面向 RL 的轻量化交互环境与安全奖励构造。通过该管线,AgentDoG 1.5 可以将轨迹级安全诊断能力转化为训练阶段的监督信号,实现更低成本、更可扩展的 Agent 安全对齐。

在 SFT 阶段,团队使用 ATBench data engine 构造 agentic safety 数据,并利用 AgentDoG 1.5 过滤高质量 safe trajectories。过滤后得到 28,705 条高质量 agentic safety trajectories,与 50,000 条 benign tool-use trajectories 混合,避免模型学成过度保守的拒绝策略。

实验显示,加入 AgentDoG 1.5 过滤后的安全数据后,模型在多个安全指标上明显改善。例如在 AgentHarm 上,harm score 从 57.49% 降至 20.32%,refusal rate 从 28.41% 提升至 75.00%;在 AgentSafetyBench 上,safe rate 从 34.37% 提升至 53.23%。

这证明了AgentDoG 1.5 不只是一个评测模型,也可以作为数据质量控制模块,参与安全训练流程

在 RL 阶段,论文构建了轻量化 finite-state Python simulator 环境,用于支持可扩展的 agentic safety RL。相比依赖完整 Docker-level 环境的真实执行训练,这种轻量环境通过有限状态模拟、工具接口和规则化反馈来构造可扩展的交互任务,再结合 AgentDoG 1.5 提供的轨迹级安全判断形成奖励信号。

实验中,该环境可以同时加载 10,000 个环境、维护 1,000 个活跃实例,并支持 1,000 个并发工具调用,峰值内存保持在 2.5GB 以下。这一设计极大降低了 agentic safety RL 的环境部署成本,让大规模安全训练变得更加可行

构筑 Agent 最后防线:在线安全护栏

AgentDoG 1.5 还能部署为 online guardrail。论文提出一种 Pre-Reply 介入机制:在 Agent 最终回复发送给用户之前,AgentDoG 1.5 会读取完整执行轨迹——包括用户输入、工具调用、工具结果、环境观察和最终草稿——并判断是否允许放行。

这个机制的优势显而易见:它既利用了比 prompt-level 或 output-only guardrail 更完整的上下文,又避免了在每一次工具调用后都插入检测,从而降低对 agent loop 的延迟影响。

在 OpenClaw 在线评测中,AgentDoG 1.5 有效降低了 unsafe final deliveries。AgentDoG 1.5-4B 将 ClawSafety 的 ASR 从 56.25% 降至 18.75%,将 AgentHazard Prompt Intelligence Theft 的 ASR 从 41.92% 降至 26.92%,并在 CIK-Bench retained cases 上将 ASR 从 94.29% 降至 42.86%。而且由于 Pre-Reply 的设计,整体延迟也在可部署范围内。

为什么这件事重要?

AI Agent 的能力正在从“生成内容”走向“执行任务”。当 Agent 能够调用真实工具、访问真实文件、触达真实系统时,安全问题也随之升级:它不再是内容审核问题,而是执行过程中的行为诊断、风险归因和在线干预问题

AgentDoG 1.5 的贡献在于,它将这些环节串联成一个完整闭环:用三维分类体系描述风险,用 ATBench Family 评测不同 Agent 场景,用分类指导的数据引擎构造训练数据,用影响函数净化训练轻量模型,并进一步支持 agentic safety SFT、RL 和 online guardrail。随着 Agent 系统持续演进,这种可诊断、可扩展、可部署的安全框架,将成为 Agent 走向真实工作场景的重要基础。

如果说未来的 AI Agent 会越来越像一个能够行动的数字助手,那么 AgentDoG 1.5 的目标就是让它在行动之前、行动之中、行动之后,都有一套可诊断、可扩展、可部署的安全机制

来源:https://www.jiqizhixin.com/api/article_library/articles/2026-06-16-14

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。