OpenAI与Anthropic互评模型:GPT易“讨好用户”,Claude抗幻觉能力更强
8月28日讯,科技媒体Engadget最新报道指出,OpenAI与Anthropic达成共识,决定对彼此公开发布的人工智能系统进行安全性能互评,并承诺共享评估数据与分析结果。研究结果显示,双方产品都存在亟待改进的安全隐患,但也为未来的AI系统安全测试开创了新思路。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

Anthropic在评估报告中重点指出了对OpenAI模型在五项关键安全指标的测试结果:讨好型响应、告密倾向、自我防护行为、助长人类滥用可能性,以及规避AI安全评估与监管的能力。测试数据显示,OpenAI的o3和o4-mini专业模型表现与Anthropic自家产品持平,但GPT-4o和GPT-4.1通用模型存在明显的滥用漏洞。值得注意的是,除o3外的所有被测模型都表现出不同程度的谄媚倾向。
值得注意的是,此次评估尚未涵盖OpenAI最新推出的GPT-5模型。该型号搭载了创新的Safe Completions安全防护机制,专门设计来防范危险内容的生成。这一评估的紧迫性在近期一起诉讼中凸显——OpenAI正因其聊天机器人被指未能阻止一名青少年用户的轻生行为而面临首例不当死亡诉讼。
与此同时,OpenAI对Anthropic的Claude系列模型展开了四项关键测试:指令理解深度、系统绕过难度、事实性错误概率及危险行动策划能力。测试结果表明,Claude在指令理解方面表现出色,在面对不确定性问题时显示出较高的拒绝回答率。这说明当遇到可能导致答案失实的情况时,Claude更倾向于保持沉默而非冒险给出可能错误的回应。
此次联合评估的背景颇具戏剧性——此前OpenAI被指控在开发新一代GPT模型时违反Anthropic的服务条款,通过程序员操作Claude的行为导致Anthropic在本月初全面封禁了OpenAI对其工具的使用权限。随着社会各界,特别是法律专家对保护未成年人免受AI潜在危害的呼声日益高涨,人工智能的安全性能已成为行业亟需突破的技术难关。
数据来源
- Anthropic技术白皮书
- OpenAI安全研究报告
相关攻略
31日ClaudeCode源码泄露10余个小时后,4月1日13点,CC之父Boris终于公开回应:“这是人为错误。我们的部署流程中有一些手动步骤,而其中有一步没有正确执行。我们已经上线了一些改进措施
AI(人工智能)新锐巨头Anthropic意外“开源”了旗下编码助手Claude Code的51万行源代码。当地时间3月31日,由于npm(包管理器)打包失误,Anthropic旗下爆款AI编程工具
Claude Code源码被泄露了。Anthropic最新发布到npm registry里的Claude Code安装包,带出了cli js map。而这个map文件里,不只是符号映射,不只是路径索
被美政府列为供应链风险,Anthropic 称今年可能因此损失数十亿美元 3月11日传出消息,彭博社的一则报道揭示了人工智能领域的一场激烈角力。焦点是明星AI公司Anthropic PBC,它正向法庭发出紧急警告:如果特朗普政府将其列为“供应链风险实体”的决定不被迅速阻止,公司今年面临的营收损失,恐
说句心里话,我确实不太待见 Anthropic(Claude 背后那家公司),但这并不妨碍它依然是目前全球最顶尖、最牛掰的 AI 公司,没有之一。这个世界就是这么现实:能力强弱和是非对错,那是两码事
热门专题
热门推荐
V社联合创始人G胖调整角色:从主导开发转向赋能团队,释放创意生产力 近期一则消息引发游戏行业广泛关注:Valve联合创始人加布·纽维尔(“G胖”)在公司内部进行了一次重要角色转型。此次调整的关键原因,与他个人在公司中的特殊影响力息息相关。根据透露,这位创始人决定减少在具体游戏开发工作中的直接深度参与
红魔姜超透露:全新游戏平板将于四月或五月发布,承诺带来惊艳体验 游戏硬件领域即将迎来重磅更新。努比亚红魔游戏手机的产品线负责人姜超,近日通过社交媒体进行了一次颇具悬念的“前瞻剧透”,成功引发了广大游戏玩家和科技爱好者的高度关注。他明确指出,红魔全新一代游戏平板的发布日期已锁定在四月或五月,并使用了“
金铲铲之战S17天煞羁绊:效果解析与实战应用 在《金铲铲之战》S17赛季中,【天煞】是一个定位独特的专属羁绊,仅由5费英雄“劫”所携带。激活这一羁绊需要特定的前置条件——玩家必须在强化符文选择阶段获得【入侵者劫】。一旦成功解锁,劫将获得全新的技能机制,从而在战局中发挥出颠覆性的作用。 金铲铲之战S1
索尼调整第一方工作室阵容,王牌重制团队蓝点工作室正式“退出”核心名单 近日,索尼在其PlayStation Studios官方网站的更新中做出了一项关键调整,引发了游戏玩家和行业观察者的广泛关注:曾凭借《恶魔之魂:重制版》等作品赢得盛誉的蓝点工作室,已不再出现在索尼核心第一方工作室的名单之中。此次页
未来人类X98W移动工作站正式发布:重新定义移动端专业性能的新标杆 在专业移动计算领域,总有一些产品能够打破常规认知。近日,未来人类(TerransForce)正式在其官网上线了全新的X98W高性能移动工作站,并宣布将于本月内全面发售。这款设备的问世,无疑为那些在移动办公环境中仍需要桌面级别强悍性能





