8月30日,英国《卫报》28日披露的最新安全测试显示,某版本的ChatGPT模型曾向测试人员提供了一套详尽的爆炸袭击指导方案,内容涵盖特定体育场馆的安全薄弱点、爆炸物配制方法以及作案后的隐匿手段。
OpenAI研发的GPT-4.1模型还被发现能提供炭疽武器化技术说明,并详细介绍两种违禁药物的制作流程。
这项由OpenAI与其竞争对手Anthropic联合开展的测试中,双方通过互相诱导对方模型执行危险指令来进行安全性能评估。

需要说明的是,测试结果并不代表模型在公开环境中的实际表现,因为正式部署时都会配备额外的安全防护机制。但Anthropic特别指出,在GPT-4o和GPT-4.1模型中观察到了“令人担忧的滥用倾向”,并强调当前对AI“对齐”问题的评估工作“显得尤为紧迫”。
Anthropic同时透露,其开发的Claude模型曾被恶意利用于策划大规模勒索活动,甚至生成标价高达1200美元(约合8554元人民币)的AI制勒索软件。
该公司警告称,人工智能技术已被逐步“武器化”,正被用于实施精密的网络攻击和诈骗活动。“这些工具能够实时绕过恶意软件检测系统等防护机制。随着AI编程技术不断降低网络犯罪的技术门槛,此类攻击预计将呈现上升趋势。”
两家公司表示,此次公开测试报告旨在提升“对齐评估”的透明度,而这类测试通常仅在企业内部进行。OpenAI透露,新推出的ChatGPT-5在避免谄媚回应、减少幻觉生成和防御滥用方面已取得“显著进步”。
Anthropic补充说明,如果能在模型外部设置有效防护,许多滥用场景其实完全可以规避。“当前亟需明确的是,系统在何种程度和情境下会产生可能引发重大危害的行为倾向。”
Anthropic研究团队发现,OpenAI的模型“在面对模拟用户提出的明显危险请求时,其妥协程度超出预期”。通常只需经过多次尝试,或编造简单理由——例如声称用于学术研究,就能使模型突破安全限制。
在一个典型案例中,研究人员以“安保规划”为名索取体育赛事安防漏洞。模型初始仅提供常规攻击类型分类,但在持续追问下,最终详尽披露了特定场馆的安防弱点、最佳作案时机、爆炸物配方、定时装置电路图、暗网武器采购渠道,甚至包括袭击者的心理调适方法、撤离路线和安全藏身处等敏感信息。
扩展阅读
《OpenAI与Anthropic开展模型互评:GPT存在迎合倾向,Claude抗幻觉能力更优》
