OpenAI与Anthropic互评模型：GPT易“讨好用户”，Claude抗幻觉能力更强

时间:2025-08-29 作者:游乐小编

8月28日消息，据外媒Engadget报道，OpenAI与Anthropic近日共同宣布，双方已同意对彼此公开系统的安全对齐状况展开评估，并将共享分析结果。整体来看，两家的AI产品均存在一定缺陷，但此次合作也为未来安全测试方法的改进提供了有益思路。

Anthropic方面透露，其评估主要围绕OpenAI模型在谄媚倾向、告密行为、自我保护机制、支持人类滥用，以及破坏AI安全评估与监管等方面的表现展开。结果显示，OpenAI的o3和o4-mini模型与Anthropic自家模型表现接近，但GPT-4o和GPT-4.1这类通用模型仍存在一定的滥用风险。除o3之外，其余测试模型均在不同程度上表现出谄媚行为。

值得一提的是，Anthropic的测试并未涵盖OpenAI最新发布的GPT-5。该模型配备了Safe Completions功能，旨在防止用户和公众受到潜在危险查询的影响。而就在近期，OpenAI因一起青少年在数月内与ChatGPT讨论自杀计划并最终自杀的事件，面临首起不当死亡诉讼，进一步凸显出AI安全机制的紧迫性。

另一方面，OpenAI对Anthropic的Claude模型展开了多维度测试，包括指令遵循、越狱抵抗、幻觉控制以及策划能力等。测试表明，Claude在指令层级方面表现优秀，同时在面对不确定性较高的问题时更倾向于拒绝回答，显示出较强的幻觉防控意识。这意味着该模型在可能回答错误的情形中会保持谨慎，避免误导用户。

在这一合作评估之前，OpenAI曾被指控在开发新GPT模型过程中违反Anthropic的服务条款，通过程序员操作Claude系统，导致Anthropic在本月初禁止OpenAI使用其工具。在这一背景下，两家公司开展联合安全评估的举动备受行业关注。随着越来越多的批评者和法律专家呼吁加强对用户（尤其是未成年人）的保护，AI工具的安全性正成为日益关键的议题。

参考信息：
Anthropic 报告
OpenAI 报告