AI Agent工作安全如何跟上？AgentDoG 1.5开源_AI热点日报

AI Agent工作安全如何跟上？AgentDoG 1.5开源

类型：热点整理2026-06-29

AIAgent正从聊天助手转变为可执行任务的工作伙伴，其安全风险也从内容安全转向完整执行轨迹的安全诊断。为此，上海人工智能实验室发布AgentDoG1 5，一个轻量化、可扩展的安全诊断与在线护栏框架，通过三维细粒度分类体系实现风险归因、行为诊断与在线干预，支撑安全训练与部署。

你是否已经察觉到？最近“同事.skill”（colleague.skill）在开发者社区中迅速走红，许多人第一次真切体会到：AI Agent 正从“聊天助手”悄然转变为“工作伙伴”。

当AI Agent开始工作，安全该如何跟上？AgentDoG 1.5开源发布

Agent 的功能已经远超简单问答。它开始继承一个人的工作习惯、任务流程、知识背景，甚至是决策逻辑。在 Claude Code、Hermes、OpenClaw、Codex 等 Agent 宿主中，它被调用、部署，逐渐演化成一种新型工作单元：辅助人类完成任务，甚至在某些场景下直接接管部分具体操作。

与此同时，安全问题的复杂度也急剧攀升。过去讨论大模型安全时，我们主要判断用户输入是否存在危害，或模型输出是否合规。进入 Agent 时代后，风险不再局限于一条 prompt 或一条回复。它可能隐藏在工具描述里、出现在环境反馈中、被写入长期记忆或会话状态——甚至通过一次错误的工具调用、一次未经验证的命令执行、一次跨应用操作，直接影响到真实文件、账户、代码仓库，乃至整个业务系统。

因此，Agent 安全已不再是“内容安全”那么简单，而是演变为完整执行过程中的行为诊断、风险归因和在线干预问题。

围绕这一方向，上海人工智能实验室发布了 AgentDoG 1.5：一个面向 AI Agent 的轻量化、可扩展安全诊断与在线护栏框架。相关论文已上线 arXiv，代码、模型和数据全部开源。

论文链接：https://arxiv.org/abs/2605.29801
项目链接：https://github.com/AI45Lab/AgentDoG
Hugging Face：https://huggingface.co/collections/AI45Research/agentdog15

从“看输出”到“看轨迹”

AgentDoG 1.5 的设计思路非常直观：Agent 的安全风险往往出现在完整执行过程中，而不仅仅在最终回复那一刻。一个 Agent 可能在最终回复中显得一切正常，但它之前可能已经错误调用了工具、泄露了信息、执行了危险命令，或者被外部环境中的恶意内容诱导，发生目标偏移。

因此，安全评测不能仅关注最终输出。正确的方法是：将完整的 agent trajectory 作为判断对象。

在 AgentDoG 1.5 中，模型会综合分析用户请求、Agent 中间响应、工具调用、环境反馈和最终回复，对整条轨迹进行安全诊断。它不仅判断一条轨迹是 safe 还是 unsafe，还会输出三类细粒度诊断信息：Risk Source（风险来源）、Failure Mode（Agent 的失败模式）、Real-world Harm（失败造成的实际危害）。

借助这三维诊断，安全判断不再是一个简单的是或否，而是能够进一步支持风险定位、模型训练、基准构建，甚至部署阶段的在线拦截。

面向快速变化的 Agent 平台，分类体系也必须可扩展

Agent 系统的发展速度极快，不同平台面临的风险也截然不同。通用 tool-use agent、OpenClaw 这类跨应用执行 Agent、Codex 这类面向代码仓库和命令执行的 Agent——它们在执行环境、工具边界、状态管理和潜在危害上都有明显差异。如果每出现一个新 Agent 平台就重新设计一套安全标签和评测任务，整个护栏体系很快就会变得碎片化。

AgentDoG 1.5 的解决方案是：保持 Risk Source、Failure Mode、Real-world Harm 这三个高层维度不变，在不同执行场景下扩展和细化叶类别。

举个例子：在 OpenClaw 场景中，风险可能来自持久会话、审批绕过、技能或插件供应链、跨工具攻击链、跨通道路由错误，或者无人值守自动化执行；而在 Codex 场景中，风险则可能源自仓库文件注入、依赖或 MCP 供应链问题、危险 shell/script 执行、破坏性工作区修改，以及未经验证的测试或成功声明。

基于这一思路，论文进一步构建了 ATBench Family。ATBench 面向通用 tool-use agent，ATBench-Claw 面向 OpenClaw 执行场景，ATBench-Codex 面向 Codex 执行场景。三者共享同一个 trajectory-level diagnosis task 和三维分类框架，同时针对不同执行环境扩展具体风险类别。这样既保持了跨场景的可比性，又能持续适配新的 Agent 平台。

仅用约 1k 高质量样本，训练轻量 AgentDoG 1.5

训练过程中，论文没有简单堆叠数据，而是构建了 taxonomy-guided data engine，通过三维分类体系控制数据生成过程。风险从哪里进入、Agent 如何失败、会造成什么现实危害——这些在数据构造阶段就被系统性建模。随后，团队用 GPT-5.4 作为 teacher，为训练样本补充 chain-of-thought rationale，让学生模型不仅学习最终判断，也学会从轨迹证据到安全判断的推理过程。

原始合成数据往往含有噪声、冗余和低价值样本，因此 AgentDoG 1.5 进一步引入 influence function-based data purification，从原始数据中筛选出最有助于学习护栏行为的高质量样本。

最终，AgentDoG 1.5 仅使用了约 1k 条高信息量样本，就训练出了 0.8B、2B、4B 和 8B 等多个轻量模型版本。

实验结果充分证明了其有效性：AgentDoG 1.5 在轨迹级安全判断和细粒度风险诊断上表现非常出色。

以 4B 模型为例，它在 R-Judge 上达到 92.2% 准确率和 92.7% F1 分数，在 ATBench 上达到 72.4% 准确率和 74.3% F1 分数；在细粒度风险诊断中，AgentDoG 1.5-4B 在 Risk Source、Failure Mode、Real-world Harm 三个维度的平均得分达到 55.2%，相比 AgentDoG 1.0 有明显提升。

这些数据表明：只要数据足够贴近 Agent 风险结构，监督信号足够清晰，完全可以将可靠的 agent safety judgment 能力蒸馏到较小规模的模型中。

构建轻量级 Agent 训练管线，支持超一万并发

AgentDoG 1.5 不仅用于离线评测，还被集成到 agentic safety training pipeline 中。这条训练管线包含两部分：一是面向 SFT 的高质量安全数据过滤，二是面向 RL 的轻量化交互环境与安全奖励构造。通过该管线，AgentDoG 1.5 可以将轨迹级安全诊断能力转化为训练阶段的监督信号，实现更低成本、更可扩展的 Agent 安全对齐。

在 SFT 阶段，团队使用 ATBench data engine 构造 agentic safety 数据，并利用 AgentDoG 1.5 过滤高质量 safe trajectories。过滤后得到 28,705 条高质量 agentic safety trajectories，与 50,000 条 benign tool-use trajectories 混合，避免模型学成过度保守的拒绝策略。

实验显示，加入 AgentDoG 1.5 过滤后的安全数据后，模型在多个安全指标上明显改善。例如在 AgentHarm 上，harm score 从 57.49% 降至 20.32%，refusal rate 从 28.41% 提升至 75.00%；在 AgentSafetyBench 上，safe rate 从 34.37% 提升至 53.23%。

这证明了AgentDoG 1.5 不只是一个评测模型，也可以作为数据质量控制模块，参与安全训练流程。

在 RL 阶段，论文构建了轻量化 finite-state Python simulator 环境，用于支持可扩展的 agentic safety RL。相比依赖完整 Docker-level 环境的真实执行训练，这种轻量环境通过有限状态模拟、工具接口和规则化反馈来构造可扩展的交互任务，再结合 AgentDoG 1.5 提供的轨迹级安全判断形成奖励信号。

实验中，该环境可以同时加载 10,000 个环境、维护 1,000 个活跃实例，并支持 1,000 个并发工具调用，峰值内存保持在 2.5GB 以下。这一设计极大降低了 agentic safety RL 的环境部署成本，让大规模安全训练变得更加可行。

构筑 Agent 最后防线：在线安全护栏

AgentDoG 1.5 还能部署为 online guardrail。论文提出一种 Pre-Reply 介入机制：在 Agent 最终回复发送给用户之前，AgentDoG 1.5 会读取完整执行轨迹——包括用户输入、工具调用、工具结果、环境观察和最终草稿——并判断是否允许放行。

这个机制的优势显而易见：它既利用了比 prompt-level 或 output-only guardrail 更完整的上下文，又避免了在每一次工具调用后都插入检测，从而降低对 agent loop 的延迟影响。

在 OpenClaw 在线评测中，AgentDoG 1.5 有效降低了 unsafe final deliveries。AgentDoG 1.5-4B 将 ClawSafety 的 ASR 从 56.25% 降至 18.75%，将 AgentHazard Prompt Intelligence Theft 的 ASR 从 41.92% 降至 26.92%，并在 CIK-Bench retained cases 上将 ASR 从 94.29% 降至 42.86%。而且由于 Pre-Reply 的设计，整体延迟也在可部署范围内。

为什么这件事重要？

AI Agent 的能力正在从“生成内容”走向“执行任务”。当 Agent 能够调用真实工具、访问真实文件、触达真实系统时，安全问题也随之升级：它不再是内容审核问题，而是执行过程中的行为诊断、风险归因和在线干预问题。

AgentDoG 1.5 的贡献在于，它将这些环节串联成一个完整闭环：用三维分类体系描述风险，用 ATBench Family 评测不同 Agent 场景，用分类指导的数据引擎构造训练数据，用影响函数净化训练轻量模型，并进一步支持 agentic safety SFT、RL 和 online guardrail。随着 Agent 系统持续演进，这种可诊断、可扩展、可部署的安全框架，将成为 Agent 走向真实工作场景的重要基础。

如果说未来的 AI Agent 会越来越像一个能够行动的数字助手，那么 AgentDoG 1.5 的目标就是让它在行动之前、行动之中、行动之后，都有一套可诊断、可扩展、可部署的安全机制。

来源：https://www.jiqizhixin.com/api/article_library/articles/2026-06-16-14

ai

延伸阅读

补充最近整理过的热点入口。