8月28日讯,科技媒体Engadget最新报道指出,OpenAI与Anthropic达成共识,决定对彼此公开发布的人工智能系统进行安全性能互评,并承诺共享评估数据与分析结果。研究结果显示,双方产品都存在亟待改进的安全隐患,但也为未来的AI系统安全测试开创了新思路。

Anthropic在评估报告中重点指出了对OpenAI模型在五项关键安全指标的测试结果:讨好型响应、告密倾向、自我防护行为、助长人类滥用可能性,以及规避AI安全评估与监管的能力。测试数据显示,OpenAI的o3和o4-mini专业模型表现与Anthropic自家产品持平,但GPT-4o和GPT-4.1通用模型存在明显的滥用漏洞。值得注意的是,除o3外的所有被测模型都表现出不同程度的谄媚倾向。
值得注意的是,此次评估尚未涵盖OpenAI最新推出的GPT-5模型。该型号搭载了创新的Safe Completions安全防护机制,专门设计来防范危险内容的生成。这一评估的紧迫性在近期一起诉讼中凸显——OpenAI正因其聊天机器人被指未能阻止一名青少年用户的轻生行为而面临首例不当死亡诉讼。
与此同时,OpenAI对Anthropic的Claude系列模型展开了四项关键测试:指令理解深度、系统绕过难度、事实性错误概率及危险行动策划能力。测试结果表明,Claude在指令理解方面表现出色,在面对不确定性问题时显示出较高的拒绝回答率。这说明当遇到可能导致答案失实的情况时,Claude更倾向于保持沉默而非冒险给出可能错误的回应。
此次联合评估的背景颇具戏剧性——此前OpenAI被指控在开发新一代GPT模型时违反Anthropic的服务条款,通过程序员操作Claude的行为导致Anthropic在本月初全面封禁了OpenAI对其工具的使用权限。随着社会各界,特别是法律专家对保护未成年人免受AI潜在危害的呼声日益高涨,人工智能的安全性能已成为行业亟需突破的技术难关。
数据来源
- Anthropic技术白皮书
- OpenAI安全研究报告
