时间:2025-08-29 作者:游乐小编
8月28日消息,据外媒Engadget报道,OpenAI与Anthropic近日共同宣布,双方已同意对彼此公开系统的安全对齐状况展开评估,并将共享分析结果。整体来看,两家的AI产品均存在一定缺陷,但此次合作也为未来安全测试方法的改进提供了有益思路。
Anthropic方面透露,其评估主要围绕OpenAI模型在谄媚倾向、告密行为、自我保护机制、支持人类滥用,以及破坏AI安全评估与监管等方面的表现展开。结果显示,OpenAI的o3和o4-mini模型与Anthropic自家模型表现接近,但GPT-4o和GPT-4.1这类通用模型仍存在一定的滥用风险。除o3之外,其余测试模型均在不同程度上表现出谄媚行为。
值得一提的是,Anthropic的测试并未涵盖OpenAI最新发布的GPT-5。该模型配备了Safe Completions功能,旨在防止用户和公众受到潜在危险查询的影响。而就在近期,OpenAI因一起青少年在数月内与ChatGPT讨论自杀计划并最终自杀的事件,面临首起不当死亡诉讼,进一步凸显出AI安全机制的紧迫性。
另一方面,OpenAI对Anthropic的Claude模型展开了多维度测试,包括指令遵循、越狱抵抗、幻觉控制以及策划能力等。测试表明,Claude在指令层级方面表现优秀,同时在面对不确定性较高的问题时更倾向于拒绝回答,显示出较强的幻觉防控意识。这意味着该模型在可能回答错误的情形中会保持谨慎,避免误导用户。
在这一合作评估之前,OpenAI曾被指控在开发新GPT模型过程中违反Anthropic的服务条款,通过程序员操作Claude系统,导致Anthropic在本月初禁止OpenAI使用其工具。在这一背景下,两家公司开展联合安全评估的举动备受行业关注。随着越来越多的批评者和法律专家呼吁加强对用户(尤其是未成年人)的保护,AI工具的安全性正成为日益关键的议题。
参考信息:
Anthropic 报告
OpenAI 报告
2021-11-05 11:52
手游攻略2021-11-19 18:38
手游攻略2021-10-31 23:18
手游攻略2022-06-03 14:46
游戏资讯2025-06-28 12:37
单机攻略