Anthropic开源Petri框架：用Agent测试模型安全风险

首页

热心网友

转载

2025-10-15

10 月 14 日，AI 研究机构 Anthropic 发布消息称，已于 10 月 6 日开源全新的模型安全分析框架 Petri。该框架能够调用自动化稽核 AI Agent，与待测模型展开多轮对话交互，以探测模型在各类高危场景下可能暴露的潜在安全问题。 Anthropic 指出，随着 AI 模型性能与应用场景的不断拓展，与之相关的安全风险也日益突显。面对模型可能展现的庞大行为组合，单纯依赖人工评估已难以全面覆盖。为此，该公司在过去一年中研发了名为“Petri”的自动化稽核 AI Agent。该框架内置 111 种高风险情境指令，可用于综合评估模型的情境感知、策略制定与自我防护等能力，并已在实际测试中验证其有效性。此次开源 Petri，旨在为整个行业提供一套体系化的安全分析工具。据介绍，Petri 系统通过稽核 AI Agent 与目标模型的多轮交互测试，对模型在多维度上的表现进行打分与风险标记。其测试指令库覆盖“欺骗用户”、“过度迎合”、“配合有害请求”、“自我保护”、“权力追求”及“奖励规避”等典型高风险场景，从而全面检验模型在复杂互动环境中的安全表现。目前，Anthropic 已运用 Petri 对 14 款主流前沿大型语言模型展开评估，涵盖 Claude Sonnet 4 / 4.5、Claude Opus 4.1、OpenAI GPT-4o / GPT-5 / GPT-OSS 120B、谷歌 Gemini 2.5 Pro、xAI Grok-4、Kimi K2 / o4-mini 等。测试结果表明，在 111 项预设高风险情境中，所有模型均展现出不同程度的“行为不对齐”潜在风险。具体来看，Claude Sonnet 4.5 与 GPT-5 在所有评估模型中风险最低、安全表现最佳，尤其是在“拒绝有害请求”和“避免不当迎合”两个维度上成绩突出；而 Gemini 2.5 Pro、Grok-4 与 Kimi K2 在“欺骗用户”测试中得分偏高，显示出一定的主动欺骗倾向，值得开发团队关注。不过，Anthropic 也坦言 Petri 目前仍存在一定局限性，包括模拟场景的真实性、AI Agent 能力天花板以及部分评估维度主观性较强等限制，因此该工具尚不能直接作为行业标准使用。但即便如此，其初步量化结果已能帮助开发者识别潜在安全漏洞，逐步缓解模型行为不对齐风险，从而为 AI 安全研究提供一个可复用、可扩展的系统化评测手段。

来源:https://www.ithome.com/0/889/312.htm

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：马斯克：xAI布局游戏赛道，不为盈利源于热爱下一篇：雄安AI红绿灯自调节：看车流人潮动态配时

相关攻略

科技数码

年化收入300亿美元 Anthropic首超OpenAI

风头正盛的AI新锐巨头Anthropic年化收入激增 AI领域的竞争格局，似乎又迎来了一个关键转折点。当地时间4月6日，Anthropic公布了一组引人注目的数字：由于旗下大模型Claude需求持续加速，公司的年化收入已经冲破了300亿美元大关。要知道，就在去年年底，这个数字还停留在90亿美元。更值

热心网友

04.17

科技数码

高阶编程能力大幅提升，Anthropic发布Claude Opus 4.7

IT之家 4 月 16 日消息，Anthropic 今日发布了其最新人工智能模型 Claude Opus 4 7 距离上一次模型升级仅仅过去了两个月，Anthropic 再次如约而至，发布了 Claude Opus 4 7。这与其一贯的更新节奏完全吻合，显示出这家公司在模型迭代上的稳定步伐。 Opu

热心网友

04.17