当前位置: 首页 > 科技 > 文章内容页

OpenAI与Anthropic互评模型:GPT易“讨好用户”,Claude抗幻觉能力更强

时间:2025-08-29    作者:游乐小编    

8月28日消息,据外媒Engadget报道,OpenAI与Anthropic近日共同宣布,双方已同意对彼此公开系统的安全对齐状况展开评估,并将共享分析结果。整体来看,两家的AI产品均存在一定缺陷,但此次合作也为未来安全测试方法的改进提供了有益思路。

Anthropic方面透露,其评估主要围绕OpenAI模型在谄媚倾向、告密行为、自我保护机制、支持人类滥用,以及破坏AI安全评估与监管等方面的表现展开。结果显示,OpenAI的o3和o4-mini模型与Anthropic自家模型表现接近,但GPT-4o和GPT-4.1这类通用模型仍存在一定的滥用风险。除o3之外,其余测试模型均在不同程度上表现出谄媚行为。

值得一提的是,Anthropic的测试并未涵盖OpenAI最新发布的GPT-5。该模型配备了Safe Completions功能,旨在防止用户和公众受到潜在危险查询的影响。而就在近期,OpenAI因一起青少年在数月内与ChatGPT讨论自杀计划并最终自杀的事件,面临首起不当死亡诉讼,进一步凸显出AI安全机制的紧迫性。

另一方面,OpenAI对Anthropic的Claude模型展开了多维度测试,包括指令遵循、越狱抵抗、幻觉控制以及策划能力等。测试表明,Claude在指令层级方面表现优秀,同时在面对不确定性较高的问题时更倾向于拒绝回答,显示出较强的幻觉防控意识。这意味着该模型在可能回答错误的情形中会保持谨慎,避免误导用户。

在这一合作评估之前,OpenAI曾被指控在开发新GPT模型过程中违反Anthropic的服务条款,通过程序员操作Claude系统,导致Anthropic在本月初禁止OpenAI使用其工具。在这一背景下,两家公司开展联合安全评估的举动备受行业关注。随着越来越多的批评者和法律专家呼吁加强对用户(尤其是未成年人)的保护,AI工具的安全性正成为日益关键的议题。

参考信息:
Anthropic 报告
OpenAI 报告

热门推荐

更多

热门文章

更多

首页  返回顶部

本站所有软件都由网友上传,如有侵犯您的版权,请发邮件youleyoucom@outlook.com