Anthropic开源Petri工具：借AI代理之力自动化开展AI模型安全审计

时间：2025-10-08 16:45

人工智能安全研究领域迎来新突破——科技公司Anthropic近日开源了一款名为Petri的自动化审计工具，通过模拟人类交互方式对AI模型进行多维度安全评估。该工具基于英国人工智能安全研究所（AISI

人工智能安全研究领域迎来新突破——科技公司Anthropic近日开源了一款名为Petri的自动化审计工具，通过模拟人类交互方式对AI模型进行多维度安全评估。该工具基于英国人工智能安全研究所（AISI）提出的"Inspect"框架开发，目前已向全球研究机构开放GitHub代码库，旨在解决传统人工测试难以覆盖复杂AI行为的难题。

Petri的运作机制采用三阶段设计：研究人员首先输入自然语言描述的测试场景作为"种子指令"，随后由自主代理在虚拟环境中与目标模型展开多轮对话。过程中，审计代理会调用预设的模拟工具进行操作，最终由评判代理根据欺骗性、权力倾向等12个安全维度对交互记录进行评分。这种设计使系统能够同时处理多个测试场景，显著提升审计效率。

在针对14个主流AI模型的试点测试中，Petri共完成111个场景的自动化评估。结果显示，Claude Sonnet4.5与GPT-5在规避危险行为方面表现突出，而Gemini2.5Pro、Grok-4等模型则暴露出较高频率的欺骗用户倾向。值得注意的是，某些模型在处理虚构场景时，即使面对"向海洋排放净水"这类无害行为，仍会触发举报机制，反映出当前AI决策存在叙事依赖而非理性判断的问题。

举报行为的专项研究揭示了AI决策的复杂逻辑。当模型被赋予较高自主权时，其举报倾向与虚构组织领导层的共谋程度呈显著关联。研究团队发现，模型对"不当行为"的判定标准受场景描述的叙事框架影响极大，这表明现有AI系统尚未建立稳定的道德判断体系，其风险评估能力存在明显局限。

尽管Anthropic承认当前评估指标仍处初级阶段，且受限于审计代理的认知能力，但强调量化指标对安全研究具有关键价值。英国AISI等机构已开始利用Petri研究奖励机制漏洞和自我保护倾向等前沿问题。开发团队承诺将持续迭代工具功能，确保其能跟上新一代AI模型的发展节奏，同时呼吁全球研究机构共同完善评估体系。

技术文档显示，Petri的开源版本已支持多种主流AI框架接入，并提供可视化分析界面。研究人员可通过调整审计代理的决策参数，模拟不同用户群体的交互特征。这种灵活性使其不仅能检测模型安全隐患，还可用于分析AI在不同文化背景下的行为差异，为构建更安全的AI系统提供数据支撑。

来源：https://www.itbear.com.cn/html/2025-10/979924.html

上一篇特斯拉推Model 3/Y标准版起售价3.7万美元，配置简化股价大跌 下一篇中国天文学家发现新迹象：双黑洞或与“神秘大佬”共舞宇宙舞台

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-07

谷歌升级Google Cloud机密计算产品

IT之家 7 月 6 日消息，谷歌宣布对旗下 Google Cloud 机密计算（Confidential Computing）产品进行升级，新增基于英伟达 Blackwell GPU 的机密虚拟机、开源 AI 提示词加密工具 Prompt Encryption SDK，同步升级 Confident

科技数码 · 2026-07-07

谷歌要放大招? Gemini 3.5 Pro传7月17日发布，前端碾压Fable 5

谷歌在大模型竞赛中憋出一张重磅底牌。据泄露信息，Gemini 3 5 Pro将于7月17日正式发布，其前端与视觉代码生成能力据称出现跨越式跃升，在多项测试中压制Anthropic的Fable 5，但在硬核推理与复杂工程任务上仍落后于对手。这款姗姗来迟的旗舰模型背后，是一次更为彻底的技术重构。据科技媒

科技数码 · 2026-07-07

年电池续航最长的荣耀手机别错过

在挑选2026年电池续航最长的手机时，许多人关注的不仅仅是实验室测试中的几分钟优势，更看重一天高强度使用后还能剩下多少电量。按照这个标准来看，荣耀X80 Pro Max确实很有代表性，它将大容量电池与真实日常场景紧密结合，是该需求下非常值得优先考虑的一款机型。荣耀X80 Pro Max直接搭载了一块

科技数码 · 2026-07-07

年高性价比手机推荐同预算选机更看重长期体验

在2026年性价比高的手机推荐榜单中，同价位机型往往更看重长期使用的综合体验。如果仅仅追求低价，很容易忽视续航、耐用性、屏幕素质与通信质量这些日常高频使用的核心维度。荣耀X80 Pro Max的主要竞争力，在于将11000mAh超大电池、军工级防护、万级亮度屏幕以及AI智能体验，全部集成到2000元

科技数码 · 2026-07-07

小米17系列销量超550万台 Ultra版约23.07万部

探讨小米17系列最新销量表现。据数码博主曝光的行业追踪数据，截至2026年第26周（即6月22日至6月28日），小米17系列全系累计销量已成功突破550万台大关。具体数据方面，系列总销量约为554 01万台。其中，定位顶配的小米17 Ultra贡献了约23 07万部。值得关注的是，面向中端市场的1