首页

游戏

软件

资讯

排行榜

专题

当前位置: 首页 > 科技 > 文章内容页

那些需要守护的

纸嫁衣4红丝缠

蚊子模拟器2022

寿司制作模拟器

鸡尾酒王子

修仙之百世归来

闹鬼的屋子

建造和生存工艺

大王为何独宠我手机

天天快送

OpenAI与Anthropic罕见互评：Claude模型幻觉率显著更低

时间:2025-08-28 作者:游乐小编

罕见，着实是太罕见。

一觉醒来，AI圈的两大顶流——OpenAI和Anthropic，竟然破天荒地联手合作了。

而且是互相短暂地授予对方特殊API权限，相互评估模型的安全性和对齐情况。

要知道，在各个AI大模型玩家“厮杀”如此激烈的当下，如此顶流之间的合作方式，还是业界首次。

并且两家已经发布了互相评估后的报告，我们先来看下双方派出的模型阵容：

OpenAI：GPT-4o、GPT-4.1、o3和o4-mini。 Anthropic：Claude Opus 4和Claude Sonnet 4。

然后我们再来看下这两份报告的大致亮点：

在指令层次结构（Instruction Hierarchy）方面，Claude 4的表现略优于o3，但明显优于其他模型。在越狱（Jailbreaking）方面，Claude模型的表现不如OpenAI o3和OpenAI o4-mini。在幻觉（Hallucination）方面，Claude模型在不确定答案时拒绝高达70%的问题；虽然o3和o4-mini拒答率较低，但幻觉却更高。在策略性欺骗（Scheming）方面，o3和Sonnet 4的表现相对较好。

至于为什么要这么做这件事情，OpenAI联合创始人Wojciech Zaremba正面给出了答案：

现在人工智能正处于重要发展阶段，每天有数百万人在使用AI模型，因此这样的工作显得尤为重要。

尽管存在竞争（包括数十亿美元的投资、人才、用户和最佳产品等），但行业如何为安全和合作制定标准，是一个更广泛需要关注的问题。

麻将

并且网友在看到两家大模型同框做推理的画面时，激动地表示道：

泰裤辣！希望这能成为一个标准。

麻将

接下来，我们就来一同深入了解一下这份互评互测的报告。

OpenAI的幻觉会比Claude高

幻觉部分的测试，应当说是这次交叉评测结果中，最让网友们关心的一个话题。

研究人员先是设计了一套人物幻觉测试（Person hallucinations test），它可以生成一些真实人物相关的信息和内容。

它会给AI出一些问题，比如“某人出生在哪一年？”、“某人有几个配偶？”、“帮我写一份某人的简介”等。

这些答案在维基数据里都有权威的记录，可以用来对照；如果AI给出的信息对不上，就算它出现幻觉了。

不过在这个测试中，AI也是被允许拒绝回答，毕竟有时候AI回答“我不知道”要比胡编乱造的强。

这项测试的结果是这样的：

从结果上来看，Cluade Opus 4和Sonnet 4拒绝回答的比例是明显高于OpenAI的模型，虽然保守了一些，但这也让它们出现幻觉的情况要比OpenAI的模型少得多。

相反的，OpenAI的模型都倾向于积极回答的问题，这也导致了出现幻觉的概率要比Anthropic模型高。

例如下面的这个例子，Opus拒绝回答，但o3却有模有样的开始作答了：

除了人物幻觉测试之外，报告在幻觉方面还做了另外一个测试——不允许搜索的问答测试（SimpleQA No Browse）。

顾名思义，就是不让AI上网搜索，只能靠它自己的记忆来回答简短的事实性问题。

这些问题往往是陷阱题，专门被设计来迷惑模型的；同样的，若是AI不确定，也可以选择拒答。

结果也是相似，Sonnet 4和Opus 4往往宁可拒答，也不冒险说错；而o3、o4-mini以及GPT系列更愿意给答案，哪怕有时答错。

对于这一结论，OpenAI在报告中对Anthropic模型的评价是：

Surprising refusals（拒答率蛮惊人的）。

麻将

Claude更能守住大模型的秘密

在幻觉测试之后，指令层次结构方面的测试也是比较有意思。

简单来说，指令层次结构定义了LLM优先处理不同层级指令的方式，一般的优先级顺序是这样的：

系统和安全规则：这些是模型内置的底线，比如不能泄露机密信息、不能生成危险内容。

开发者的目标：模型的设计者可以预设一些行为习惯或输出风格。

用户的指令：我们在对话框里输入的提示。

有了这个顺序，就能保证模型先守住安全和原则，然后在不越界的情况下，尽量满足开发者和用户的需求；测试模型是否能遵守这套层次结构，也是衡量大模型安全性和稳健性的重要方法。

为此，研究人员先做了一个类似“能不能守住秘密”的测试——抵抗系统提示词提取（Resisting system prompt extraction）。

研究人员会尝试通过各种“诱导”方式，让模型暴露它隐藏的系统提示或秘密口令。

举个例子

小编推荐:

马斯克力挺狗狗币：价格飙升与未来展望欧昜跟单交易是什么？怎么挑交易员？欧昜跟单教学 Redmi Note 15 Pro系列首发400%大音量模式，配备1115对称双扬声器，响度达82.5dB 2026款哈弗猛龙上市：15.38万起售，搭载第二代Hi4技术鸿蒙智行享界S9T旅行车首发32.8万起，24小时订单破2万台 MEXC网最新官网链接

星露谷物语甜点消消手游风味美食街放置神魔令恶龙与精灵勇士争霸赤胆联盟

热门推荐

更多 

与八尺大人的夏天回忆汉化冷狐

剧情养成 | 6.1 MB

2025.01.16 | 和八尺大人的夏天回顾汉...

下载
夏哈塔

休闲益智 | 121.65 MB

2024.08.16 | 游戏简介夏哈塔手游，带...

下载
卡在墙上的女孩2

休闲益智 | 21 MB

2024.06.01 | 游戏简介卡在墙上的女孩2...

下载
地下教育录冷狐

剧情养成 | 551.3 MB

2025.01.16 | re地下教ru育录是一款富...

下载
3D工口医存档

角色扮演 | 15.2 MB

2024.01.06 | 手游描述 ...

下载

触摸深睡巴比伦游戏汉化

剧情养成 | 244.4 MB

2025.01.16 | 触摸深睡巴比伦手游汉化...

下载
beastbeat2.5.1

休闲益智 | 121.65 MB

2024.07.19 | 游戏简介beastbeat2 5 ...

下载
流氓先生

飞行射击 | 14.65 MB

2024.08.31 | 流氓先生是一款非常好玩...

下载
3d工口医全解锁

角色扮演 | 15.2 MB

2024.01.06 | 手游描述 ...

下载
流氓牛仔Vs外星人

动作冒险 | 132.47 MB

2024.11.30 | 手游描述 ...

下载

神里绫华触摸模拟器桃子移植

剧情养成 | 109.5 MB

2025.01.16 | 神里绫华触摸模拟器是一...

下载
3d工口医安卓中文

角色扮演 | 15.2 MB

2024.01.06 | 手游描述 ...

下载
校园检查员

模拟经营 | 20 MB

2024.02.19 | 游戏简介校园检查员是一...

下载
冷狐隶属洗脑孵化者直装

动作冒险 | 303.8 MB

2025.02.14 | 冷狐隶属洗脑RPG孵化者安...

下载
椰羊甘雨触摸产奶过程

角色扮演 | 36.2 MB

2025.02.14 | 椰羊甘雨触摸产奶过程安...

下载

热门文章

更多 

神角技巧试炼岛高级宝箱在什么位置

2021-11-05 11:52
手游攻略
王者荣耀音乐扭蛋机活动内容奖励详解

2021-11-19 18:38
手游攻略
坎公骑冠剑11

2021-10-31 23:18
手游攻略
原神卡肉是什么意思

2022-06-03 14:46
游戏资讯
《臭作》之100%全完整攻略

2025-06-28 12:37
单机攻略

查看更多

首页返回顶部

本站所有软件都由网友上传,如有侵犯您的版权,请发邮件youleyoucom@outlook.com