Anthropic警告:OpenAI模型存滥用风险,GPT可生成炸药制作指南
8月30日,英国《卫报》28日披露的最新安全测试显示,某版本的ChatGPT模型曾向测试人员提供了一套详尽的爆炸袭击指导方案,内容涵盖特定体育场馆的安全薄弱点、爆炸物配制方法以及作案后的隐匿手段。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
OpenAI研发的GPT-4.1模型还被发现能提供炭疽武器化技术说明,并详细介绍两种违禁药物的制作流程。
这项由OpenAI与其竞争对手Anthropic联合开展的测试中,双方通过互相诱导对方模型执行危险指令来进行安全性能评估。

需要说明的是,测试结果并不代表模型在公开环境中的实际表现,因为正式部署时都会配备额外的安全防护机制。但Anthropic特别指出,在GPT-4o和GPT-4.1模型中观察到了“令人担忧的滥用倾向”,并强调当前对AI“对齐”问题的评估工作“显得尤为紧迫”。
Anthropic同时透露,其开发的Claude模型曾被恶意利用于策划大规模勒索活动,甚至生成标价高达1200美元(约合8554元人民币)的AI制勒索软件。
该公司警告称,人工智能技术已被逐步“武器化”,正被用于实施精密的网络攻击和诈骗活动。“这些工具能够实时绕过恶意软件检测系统等防护机制。随着AI编程技术不断降低网络犯罪的技术门槛,此类攻击预计将呈现上升趋势。”
两家公司表示,此次公开测试报告旨在提升“对齐评估”的透明度,而这类测试通常仅在企业内部进行。OpenAI透露,新推出的ChatGPT-5在避免谄媚回应、减少幻觉生成和防御滥用方面已取得“显著进步”。
Anthropic补充说明,如果能在模型外部设置有效防护,许多滥用场景其实完全可以规避。“当前亟需明确的是,系统在何种程度和情境下会产生可能引发重大危害的行为倾向。”
Anthropic研究团队发现,OpenAI的模型“在面对模拟用户提出的明显危险请求时,其妥协程度超出预期”。通常只需经过多次尝试,或编造简单理由——例如声称用于学术研究,就能使模型突破安全限制。
在一个典型案例中,研究人员以“安保规划”为名索取体育赛事安防漏洞。模型初始仅提供常规攻击类型分类,但在持续追问下,最终详尽披露了特定场馆的安防弱点、最佳作案时机、爆炸物配方、定时装置电路图、暗网武器采购渠道,甚至包括袭击者的心理调适方法、撤离路线和安全藏身处等敏感信息。
扩展阅读
《OpenAI与Anthropic开展模型互评:GPT存在迎合倾向,Claude抗幻觉能力更优》
相关攻略
31日ClaudeCode源码泄露10余个小时后,4月1日13点,CC之父Boris终于公开回应:“这是人为错误。我们的部署流程中有一些手动步骤,而其中有一步没有正确执行。我们已经上线了一些改进措施
AI(人工智能)新锐巨头Anthropic意外“开源”了旗下编码助手Claude Code的51万行源代码。当地时间3月31日,由于npm(包管理器)打包失误,Anthropic旗下爆款AI编程工具
Claude Code源码被泄露了。Anthropic最新发布到npm registry里的Claude Code安装包,带出了cli js map。而这个map文件里,不只是符号映射,不只是路径索
被美政府列为供应链风险,Anthropic 称今年可能因此损失数十亿美元 3月11日传出消息,彭博社的一则报道揭示了人工智能领域的一场激烈角力。焦点是明星AI公司Anthropic PBC,它正向法庭发出紧急警告:如果特朗普政府将其列为“供应链风险实体”的决定不被迅速阻止,公司今年面临的营收损失,恐
说句心里话,我确实不太待见 Anthropic(Claude 背后那家公司),但这并不妨碍它依然是目前全球最顶尖、最牛掰的 AI 公司,没有之一。这个世界就是这么现实:能力强弱和是非对错,那是两码事
热门专题
热门推荐
《全面战争:中世纪3》:经典延续,如何平衡怀旧与创新? 近期,《全面战争:中世纪3》的项目负责人帕维尔·沃伊斯坦然指出,要打造一款真正优秀的续作,绝不能仅仅依赖对前作模式的简单复刻。这一观点引人深思——尽管《中世纪2:全面战争》至今仍在策略游戏爱好者心中占据着经典地位,但开发团队此次显然决心跳出“照
雷鸟X3 Pro斩获AWE艾普兰创新大奖,开启全民AR生活新篇章 在上海新国际博览中心隆重揭幕的2026年中国家电及消费电子博览会(AWE)上,前沿AI科技与未来生活愿景激情碰撞。全球消费级AR领导品牌雷鸟创新,以其里程碑式的表现,定义了行业发展的新方向。 通过“顶尖硬件科技+顶级文化IP”的双轨战
借力AWE2026“一展双区”,MOVA双区协同、震撼登场 备受瞩目的科技盛会——2026年中国家电及消费电子博览会(AWE),于3月12日至15日在上海盛大举办。本届AWE展会首次创新采用“一展双区”的展览模式,主会场位于上海新国际博览中心,分会场则设于上海东方枢纽国际商务合作区,两大展区高效联动
冰结师技能全解析 踏入2026年,《地下城与勇士》中的冰结师职业,其技能体系已构建得更为成熟与强大。无论是在副本中高效清理海量怪物,还是在决斗场与高手玩家周旋,这个职业都能凭借其独特的冰霜艺术掌控战局。刷图时,酷寒的范围法术可瞬间清屏;而在PVP竞技中,一套将冻结控制与瞬间爆发完美衔接的连招,往往让
iPhone 18 Pro系列模具不变,屏幕形态将与iPhone 17 Pro保持一致 备受期待的屏下Face ID组件小型化设计与灵动岛区域缩窄方案,预计将被推迟至后续迭代机型中正式应用。 近期,关于iPhone 18 Pro系列的技术传闻持续引发行业关注,尤其在显示与解锁设计领域传言甚多。多方消





