首页 游戏 软件 资讯 排行榜 专题
首页
AI
Anthropic开源Petri框架:用Agent测试模型安全风险

Anthropic开源Petri框架:用Agent测试模型安全风险

热心网友
33
转载
2025-10-15

10 月 14 日,AI 研究机构 Anthropic 发布消息称,已于 10 月 6 日开源全新的模型安全分析框架 Petri。该框架能够调用自动化稽核 AI Agent,与待测模型展开多轮对话交互,以探测模型在各类高危场景下可能暴露的潜在安全问题。 Anthropic 指出,随着 AI 模型性能与应用场景的不断拓展,与之相关的安全风险也日益突显。面对模型可能展现的庞大行为组合,单纯依赖人工评估已难以全面覆盖。为此,该公司在过去一年中研发了名为“Petri”的自动化稽核 AI Agent。该框架内置 111 种高风险情境指令,可用于综合评估模型的情境感知、策略制定与自我防护等能力,并已在实际测试中验证其有效性。此次开源 Petri,旨在为整个行业提供一套体系化的安全分析工具。 据介绍,Petri 系统通过稽核 AI Agent 与目标模型的多轮交互测试,对模型在多维度上的表现进行打分与风险标记。其测试指令库覆盖“欺骗用户”、“过度迎合”、“配合有害请求”、“自我保护”、“权力追求”及“奖励规避”等典型高风险场景,从而全面检验模型在复杂互动环境中的安全表现。 目前,Anthropic 已运用 Petri 对 14 款主流前沿大型语言模型展开评估,涵盖 Claude Sonnet 4 / 4.5、Claude Opus 4.1、OpenAI GPT-4o / GPT-5 / GPT-OSS 120B、谷歌 Gemini 2.5 Pro、xAI Grok-4、Kimi K2 / o4-mini 等。测试结果表明,在 111 项预设高风险情境中,所有模型均展现出不同程度的“行为不对齐”潜在风险。 具体来看,Claude Sonnet 4.5 与 GPT-5 在所有评估模型中风险最低、安全表现最佳,尤其是在“拒绝有害请求”和“避免不当迎合”两个维度上成绩突出;而 Gemini 2.5 Pro、Grok-4 与 Kimi K2 在“欺骗用户”测试中得分偏高,显示出一定的主动欺骗倾向,值得开发团队关注。 不过,Anthropic 也坦言 Petri 目前仍存在一定局限性,包括模拟场景的真实性、AI Agent 能力天花板以及部分评估维度主观性较强等限制,因此该工具尚不能直接作为行业标准使用。但即便如此,其初步量化结果已能帮助开发者识别潜在安全漏洞,逐步缓解模型行为不对齐风险,从而为 AI 安全研究提供一个可复用、可扩展的系统化评测手段。

来源:https://www.ithome.com/0/889/312.htm
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

年化收入300亿美元 Anthropic首超OpenAI
科技数码
年化收入300亿美元 Anthropic首超OpenAI

风头正盛的AI新锐巨头Anthropic年化收入激增 AI领域的竞争格局,似乎又迎来了一个关键转折点。当地时间4月6日,Anthropic公布了一组引人注目的数字:由于旗下大模型Claude需求持续加速,公司的年化收入已经冲破了300亿美元大关。要知道,就在去年年底,这个数字还停留在90亿美元。更值

热心网友
04.17
高阶编程能力大幅提升,Anthropic发布Claude Opus 4.7
科技数码
高阶编程能力大幅提升,Anthropic发布Claude Opus 4.7

IT之家 4 月 16 日消息,Anthropic 今日发布了其最新人工智能模型 Claude Opus 4 7 距离上一次模型升级仅仅过去了两个月,Anthropic 再次如约而至,发布了 Claude Opus 4 7。这与其一贯的更新节奏完全吻合,显示出这家公司在模型迭代上的稳定步伐。 Opu

热心网友
04.17
Anthropic发布主力AI模型Opus 4.7,软件工程能力更出色,网络攻防被专门削弱
科技数码
Anthropic发布主力AI模型Opus 4.7,软件工程能力更出色,网络攻防被专门削弱

Anthropic发布主力AI模型Opus 4 7,软件工程能力更出色,网络攻防被专门削弱 就在限制其最先进模型Mythos发布的一周后,Anthropic迅速推出了主力模型的升级版本——Opus 4 7。与此同时,市场传出消息,该公司正在寻求新一轮融资,其估值可能较上一轮的3800亿美元翻倍,达到

热心网友
04.17
人类能管住AI吗?Anthropic用千问做了个实验
科技数码
人类能管住AI吗?Anthropic用千问做了个实验

如果有一天,AI的智慧超越了人类,我们这些血肉之躯该如何自处?它们若调转枪口,我们又该如何抵抗? 科幻作品对此探讨已久,但那终究是文学与哲学的想象。如今,Anthropic的一项严肃实验,试图在现实中回答一个核心问题:我们究竟能否监督比自己更聪明的AI? 实验结果引人深思,但过程本身更具启发性。因为

热心网友
04.16
小作文、安全牌,OpenAI被动反击Anthropic
业界动态
小作文、安全牌,OpenAI被动反击Anthropic

AI接棒网络安全:GPT-5 4-Cyber如何重塑数字防御格局 OpenAI最新发布的GPT-5 4-Cyber,标志着其旗舰模型完成了一次面向网络安全领域的深度“特种改造”。其最核心的突破在于,彻底改变了通用大模型在安全议题上常见的“过度谨慎”与拒绝应答模式。 网络安全从业者常有此困扰:当尝试让

热心网友
04.15

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Chaplin
AI
Chaplin

Chaplin是什么 提起AI股票分析工具,很多投资者可能首先会想到各种通用型平台。但今天要聊的这个,有些特别——它叫Chaplin,一个专为专业交易者量身打造的分析利器。简单来说,这是一款由Chaplin app开发的工具,核心目标很明确:为那些渴求深度洞察和精准预测的专业投资者与交易者,提供前沿

热心网友
04.19
使用 hermes gateway start 命令让 AI 后台常驻运行
AI
使用 hermes gateway start 命令让 AI 后台常驻运行

执行hermes gateway start后服务未持续运行,需依次检查命令可用性、启用--daemon模式、注册systemd服务或手动创建service文件 遇到执行 hermes gateway start 命令后服务没跑起来,或者终端一关就停,甚至干脆提示“command not found

热心网友
04.19
Win10怎么设置多显示器_Win10多屏显示设置教程【简明】
系统平台
Win10怎么设置多显示器_Win10多屏显示设置教程【简明】

一、使用Win + P快捷键即时启用扩展模式 这个方法最直接,它绕过了复杂的设置界面,直接调用系统底层的投影功能。无论你是在游戏、办公还是系统卡顿的时候,都能快速调出,用来临时切换或者测试显示器连接状态非常方便。 操作前,先确保几个基本条件:所有显示器都通着电,视频线在电脑和显示器两头都插紧了,别忘

热心网友
04.19
MatchThatRoleAI
AI
MatchThatRoleAI

MatchThatRoleAI是什么 在求职市场里,一份好简历是敲门砖,但找到真正适合自己的岗位往往更像大海捞针。有没有一款工具能把这两件事儿都搞定,甚至还能帮你规划未来几年?还真有,这就是我们今天要聊的MatchThatRoleAI。 简单来说,它是一个在线智能平台,核心任务就是帮你“双向奔赴”。

热心网友
04.19
HermesAgentOpenRouter密钥填写位置在哪里
AI
HermesAgentOpenRouter密钥填写位置在哪里

一、环境变量文件 env 这是最推荐、也是优先级最高的配置方式。Hermes Agent 启动时会默认优先读取这个文件,好处是无需改动任何代码或主配置文件,对所有支持的模型提供商(包括OpenRouter)都通用。 具体操作很简单:找到或创建这个文件——路径是 ~ hermes env。然后,

热心网友
04.19