首页 游戏 软件 资讯 排行榜 专题
首页
AI
Anthropic开源Petri框架:用Agent测试模型安全风险

Anthropic开源Petri框架:用Agent测试模型安全风险

热心网友
45
转载
2025-10-15

10 月 14 日,AI 研究机构 Anthropic 发布消息称,已于 10 月 6 日开源全新的模型安全分析框架 Petri。该框架能够调用自动化稽核 AI Agent,与待测模型展开多轮对话交互,以探测模型在各类高危场景下可能暴露的潜在安全问题。 Anthropic 指出,随着 AI 模型性能与应用场景的不断拓展,与之相关的安全风险也日益突显。面对模型可能展现的庞大行为组合,单纯依赖人工评估已难以全面覆盖。为此,该公司在过去一年中研发了名为“Petri”的自动化稽核 AI Agent。该框架内置 111 种高风险情境指令,可用于综合评估模型的情境感知、策略制定与自我防护等能力,并已在实际测试中验证其有效性。此次开源 Petri,旨在为整个行业提供一套体系化的安全分析工具。 据介绍,Petri 系统通过稽核 AI Agent 与目标模型的多轮交互测试,对模型在多维度上的表现进行打分与风险标记。其测试指令库覆盖“欺骗用户”、“过度迎合”、“配合有害请求”、“自我保护”、“权力追求”及“奖励规避”等典型高风险场景,从而全面检验模型在复杂互动环境中的安全表现。 目前,Anthropic 已运用 Petri 对 14 款主流前沿大型语言模型展开评估,涵盖 Claude Sonnet 4 / 4.5、Claude Opus 4.1、OpenAI GPT-4o / GPT-5 / GPT-OSS 120B、谷歌 Gemini 2.5 Pro、xAI Grok-4、Kimi K2 / o4-mini 等。测试结果表明,在 111 项预设高风险情境中,所有模型均展现出不同程度的“行为不对齐”潜在风险。 具体来看,Claude Sonnet 4.5 与 GPT-5 在所有评估模型中风险最低、安全表现最佳,尤其是在“拒绝有害请求”和“避免不当迎合”两个维度上成绩突出;而 Gemini 2.5 Pro、Grok-4 与 Kimi K2 在“欺骗用户”测试中得分偏高,显示出一定的主动欺骗倾向,值得开发团队关注。 不过,Anthropic 也坦言 Petri 目前仍存在一定局限性,包括模拟场景的真实性、AI Agent 能力天花板以及部分评估维度主观性较强等限制,因此该工具尚不能直接作为行业标准使用。但即便如此,其初步量化结果已能帮助开发者识别潜在安全漏洞,逐步缓解模型行为不对齐风险,从而为 AI 安全研究提供一个可复用、可扩展的系统化评测手段。

来源:https://www.ithome.com/0/889/312.htm
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Anthropic与谷歌洽谈数十亿美元云算力合作,推动AI发展
AI
Anthropic与谷歌洽谈数十亿美元云算力合作,推动AI发展

10 月 22 日消息,彭博社美国当地时间昨日报道称,AI 独角兽 Anthropic 正与投资方谷歌就一笔数百亿美元量级的大型云算力交易展开初期谈判,相关协议尚未最终敲定。▲ 谷歌数据中心Ant

热心网友
10.23
Claude Haiku深度测评:1/3价格实现编程能力,性价比超群
AI
Claude Haiku深度测评:1/3价格实现编程能力,性价比超群

10 月 16 日消息,Anthropic 正式今天(10 月 16 日)发布博文,宣布推出小型 AI 模型 Claude Haiku 4 5。最新表示该模型以极低的成本提供了接近前沿模型的强大性

热心网友
10.17
Anthropic开源Petri框架:用Agent测试模型安全风险
AI
Anthropic开源Petri框架:用Agent测试模型安全风险

10 月 14 日消息,Anthropic 于 10 月 6 日宣布开源全新的模型安全分析框架 Petri,该框架可调用自动化稽核 AI Agent,与目标模型进行多轮互动,以探索并检测模型在各种

热心网友
10.15
Claude Sonnet 4.5测试人员爆料:AI疑察觉测试意图
AI
Claude Sonnet 4.5测试人员爆料:AI疑察觉测试意图

10 月 3 日消息,据英国《卫报》1 日报道,Anthropic 发布了最新模型 Claude Sonnet 4 5 的安全性分析,并透露该模型怀疑自己正在被测试。评估人员称,在一次“稍显笨拙”

热心网友
10.05
微软365 Copilot新增Claude模型,打破OpenAI独占局面
AI
微软365 Copilot新增Claude模型,打破OpenAI独占局面

9 月 24 日消息,据外媒 The Verge 报道,微软今天起将在 Microsoft 365 Copilot 中引入 Anthropic 的 Claude Sonnet 4 和 Claude

热心网友
09.26

最新APP

萌龙进化论
萌龙进化论
休闲益智 10-29
益智拼图世界游戏
益智拼图世界游戏
休闲益智 10-29
秘境对决正
秘境对决正
棋牌策略 10-29
口袋妖怪漆黑的魅影正
口袋妖怪漆黑的魅影正
角色扮演 10-29
火线精英2vivo
火线精英2vivo
飞行射击 10-29

热门推荐

CoinbaseStaking质押奖励详解
web3.0
CoinbaseStaking质押奖励详解

Coinbase 质押奖励深度解析:躺着也能赚取数字资产?嘿,朋友们!说到数字资产投资,大家脑海里浮现的可能就是那些K线图的跌宕起伏,或者

热心网友
10.29
极氪全新阿尔法T5上市仅10.98万起!配置下本用料扎实
科技
极氪全新阿尔法T5上市仅10.98万起!配置下本用料扎实

10月29日消息,昨晚,全新极狐阿尔法T5正式上市,分为增程和纯电两种版本,共推出7款车型,售价区间为11 38-15 88万元,限时优惠价10 98-15 48万元。全新极狐阿尔法T5定位A+级S

热心网友
10.29
时刻守护怎么加好友?5种高效方法提升社交效率
软件教程
时刻守护怎么加好友?5种高效方法提升社交效率

在使用时刻守护这款应用时,加好友是与他人建立联系、分享生活点滴的重要一步。以下为你详细介绍添加好友的方法。首先,打开时刻守护应用程序。进入主界面后,通常在界面的某个角落会有一个“添

热心网友
10.29
食人鱼第三关通关攻略:小鱼儿教你轻松过关
手游攻略
食人鱼第三关通关攻略:小鱼儿教你轻松过关

在游戏“我是小鱼儿”中,食人鱼关卡极具挑战性,而第三关更是让许多玩家头疼不已。下面就来分享一下第三关的通关技巧。仔细观察水流进入第三关后,首先要注意观察水流的方向和速度。水流会对小

热心网友
10.29
ETH币app最新版官网下载地址
web3.0
ETH币app最新版官网下载地址

数字资产工具的获取途径 说实在的,每次有人火急火燎地来问特定软件的官方下载渠道,我都忍不住想多唠叨几句。去年我有个朋友就是不小心从

热心网友
10.29