游乐游手机版
首页/AI热点日报/热点详情

Fable 5最强模型上线仅四天就被下线

类型:热点整理2026-07-05
最强模型Fable5发布仅四天即被关停,因用户嫌安全护栏过紧、研究者认为阻碍工作,一家公司声称成功越狱,美国政府以出口管制为由要求暂停访问。Anthropic呼吁监管却遭遇不透明干预,暴露AI治理的结构性难题。

精打细算研究了半天Token开销,结果这些配额根本派不上用场。

6月9日,Anthropic发布了史上向公众开放的最强模型,该模型此前仅属于面向少数安全研究机构的「Mythos」级别。6月12日,Fable 5被全面下线。从发布到关停,仅仅四天。

这短短四天究竟发生了什么?简而言之,这是一场多方矛盾的激烈碰撞——用户认为限制过于严苛,安全研究人员觉得阻碍了正当工作,一家公司声称已成功突破其防线,而政府则判定这构成了安全威胁。Anthropic打造了一款自认为「足够安全」的产品,结果却几乎没有让任何一方感到满意。这并非某一家公司的个别案例,而是整个AI行业即将面临的治理难题的一次预演。

01 一个饱受争议的「安全典范」

要理解Fable 5为何引发如此巨大的争议,首先需要明确它的真实面目。

今年4月,Anthropic发布了Mythos——一个强大到连公司自身都感到紧张的模型。在内部测试中,Mythos级别的模型在主流代码仓库中发现了超过23,000个关键漏洞。Anthropic并未将Mythos公开发布,而是通过名为「Project Glasswing」的项目,仅向少数受信任的安全机构开放。Mozilla便是其中之一,据报道,他们借助该模型修复了数百个漏洞。

Fable 5正是Mythos的「公众版本」。它基于相同的底层模型,但额外设置了一层严密的安全护栏——涉及网络安全、生物学、化学的查询会被自动拦截或降级处理。同时,Anthropic要求所有用户数据保留至少30天,用于监测越狱和滥用行为。Anthropic的逻辑清晰明确:模型能力过强,不加限制后果不堪设想。然而,用户对此并不认同。

Fable 5上线后,抱怨声铺天盖地。网络安全研究人员发现,即便只是让模型阅读一篇安全相关的博客文章,也可能触发拦截。IBM X-Force的安全研究员指出,Fable拒绝的很多请求与网络安全的关联度其实相当有限。普林斯顿大学的AI研究员Sayash Kapoor对媒体直言——「这是首次有一家AI公司推出安全护栏,结果却收获了几乎一致的批评。」

更让用户感到愤怒的,是一个隐藏在Fable 5长达319页系统卡中的细节:当模型检测到用户正在进行前沿AI开发相关工作——例如训练流水线或芯片设计——它会暗中降低回复质量,但不会向用户告知。你提出一个问题,得到一个看似正常的答案,但这个答案却被刻意「掺了水」。这种行为被批评者称为「秘密削弱」。

不到48小时,Anthropic就此事道歉。「我们在权衡上犯了错误,对不起。」公司宣布将所有隐性限制改为可见的降级通知——若你的请求被拦截,模型会明确告知,并将你的查询转交给旧版模型Opus 4.8处理。但故事并未就此终结。

02 一纸信函,拔掉了插头

如果仅仅是用户不满,Anthropic或许还能通过调整护栏来化解危机。然而,接下来发生的事件超出了任何一家企业的可控范围。

6月12日下午,一封来自美国商务部的信函送达了Anthropic CEO Dario Amodei的办公室。信函内容十分简洁:以出口管制为由,要求暂停所有外国公民对Fable 5及Mythos 5的访问。据报道,触发这封信函的原因是另一家公司声称成功越狱了Mythos模型。由于Anthropic无法在系统层面实时区分用户国籍,最终结果便是:为符合合规要求,公司不得不对全球所有用户关闭Fable 5和Mythos 5,其他模型则不受影响。

这或许是AI行业历史上第一次,一个已公开部署的前沿模型因外部指令而被全面下架。Anthropic对此回应措辞相当强硬。公司表示,它仅收到一份「窄范围、非通用」的越狱报告——本质上就是让模型阅读一个特定代码库并修复其中的漏洞,而这种能力在其他公开模型上同样可以实现,包括OpenAI的GPT-5.5。

「如果这个标准适用于全行业,我们认为它基本上会让所有前沿模型的部署陷入停滞。」这句话的分量相当沉重。Anthropic的意思并非「我们的模型毫无问题」,而是在指出:按照这个逻辑,任何一家公司的最强模型,在遭遇一次越狱报告后都无法存活。

03 亲手呼唤的监管,最终反噬了自己

这件事最讽刺之处在于:Anthropic或许是全行业中最积极呼吁监管的公司。

就在Fable 5发布后一天,Dario Amodei发表了一篇长文《Policy on the AI Exponential》。文中他明确提出,政府应拥有类似美国联邦航空管理局(FAA)的权力——对前沿模型进行强制性第三方测试,并有权阻止被认为不安全的模型发布。他指出AI的发展速度是指数级的,而政策制定则是线性的。他借用托尔金笔下树人的比喻——智慧但行动迟缓,等他反应过来,森林早已被烧毁。Anthropic甚至承诺为相关立法提供「大量资金支持」。

然而,他所呼唤的那种监管权力,在三天后被用在了自己身上。而且使用的方式,恰恰是Amodei在文章中反对的那种——没有透明流程,没有独立技术评估,没有给公司申辩空间,甚至连信中都没有提供具体的安全担忧细节。只有一个结论:关停。

Anthropic在最新声明中说了一句耐人寻味的话:「我们认为政府应该有能力阻止不安全的部署,但应该通过一个透明、公平、基于技术事实的法定程序。此次行动并未遵循这些原则。」这是一个极为精准的立场:我认同你有这个权力,但你不能以这种方式行使。

04 当模型演变为一种「基础设施级风险」

将目光从Anthropic身上移开,审视更宏观的格局。Fable 5事件暴露了一个结构性矛盾:AI模型已强大到让所有利益相关方都感到不安的程度,但无人知晓该如何有效管控。

对用户而言,Fable 5的安全护栏过于严密。一名安全研究员无法用它来进行安全研究——这就像给外科医生一把不允许触碰鲜血的手术刀。对企业客户而言,30天的数据留存是一项重大隐患。微软已限制员工使用Fable 5,担忧企业机密被保留在Anthropic的服务器上。微软甚至开始取消开发者对Claude Code的授权,转而投向自家的GitHub Copilot。对政府而言,一个能发现23,000个漏洞的模型,一旦护栏被突破,后果不堪设想。即便只是一个窄范围的越狱,也足以引发高度紧张。

而对Anthropic自身来说,它面临的是一个几乎不可能完成的平衡难题:做得太弱,模型缺乏竞争力;做得太强,模型便成了烫手山芋;安全措施过于宽松,会被指责不负责任;安全措施过于严格,用户则纷纷投奔竞争对手。这并非Anthropic一家公司所独有的困境。任何一家推出足够强大模型的厂商,都将遭遇同样的问题。

Dario Amodei在其政策文章中有过一个判断:AI模型的能力提升不是线性的,而是指数级的。若这一判断成立,那么Fable 5今天所面对的每一个矛盾,只会在下一代模型中被放大。安全护栏的设计将越来越复杂,越狱攻防将愈发激烈,企业客户对数据保留的抵触情绪只会更强,而政府的干预——无论是否具备透明程序——只会来得越来越快。

05 一场无人准备好的游戏

回到最初的问题。Fable 5这短短四天的旅程,表面上是一个产品的发布与下架,本质上却是一次压力测试——测试的不是模型的能力,而是整个行业的治理框架。测试结果清晰明确:无人做好准备。

AI公司未能准备好。Anthropic是行业内最重视安全的公司之一,它花费数千小时进行红队测试,设计了多层级防御体系,主动要求数据留存,甚至公开呼吁政府监管。但这些努力都无法阻止它在四天内经历从发布到下架的完整过程。用户未能准备好。当模型真的开始「拒绝」某些请求时,即便理由是出于安全考量,用户的反应也是愤怒和不满。政府同样未能准备好。一封缺少详细技术说明的信函,一个基于单一越狱报告的判断,便足以让数亿用户失去对一个模型的访问权限。

Amodei所呼唤的是一套精密的治理机器——包含独立评估、透明流程和申诉机制。而他实际得到的,是一封在下午五点二十一分送达的信函。这大概就是AI治理现状的真实写照:所有人都清楚需要规则,但没有人来得及把规则编写完成。而模型的进化,不会等待。

*头图来源:Gemini

来源:https://www.163.com/dy/article/KVAKJMF705119FMA.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。