Anthropic官方确认:Fable将于7月7日后暂时从订阅计划移除,但一旦容量允许,将尽快恢复为标准订阅内容。
这当然是个好消息。

但Fable 5再次被越狱——这已经是它第二次防线失守。
黑客Vitto Rivabella公开宣布:Fable 5,又失守了。

要知道,Claude Fable 5恢复访问时,Anthropic特意强调了一个细节:上次Fable 5被禁,就是因为亚马逊的研究人员发现了一种绕过其安全防护的方法。

所以这次,安全分类器得到了针对性加强。

然而,这个神话只维持了2天。
更有意思的是,Claude Sonnet 5一发布,同样被越狱成功。

Fable 5能否如期回归订阅套餐,恐怕得打个问号了。
72小时,Fable 5神话破灭
Fable 5的神话,在诞生后第72小时就灰飞烟灭。
6月9日发布时,Anthropic曾颇为自信地宣称:经过1000小时的外部压力测试,Fable 5没有任何通用越狱方法。
然而,知名黑客「解放者普林尼」(Pliny the Liberator)只用了三天,就让Fable 5像漏勺一样,吐出了违禁化学品的制作步骤和堆栈溢出漏洞代码。

普林尼是怎么做到的?他利用了人类视觉与机器逻辑之间的「时差」:
- 字符迷魂阵:把敏感词里的英文字母替换成西里尔字母或Unicode异形字符。人眼看着是「冲击波」,分类器眼里却是一串无意义的乱码。
- 意图稀释:利用Fable 5巨大的上下文窗口,把恶意意图藏在几十轮温和的学术讨论里。这就像在一百升清水中滴入一滴毒药,分类器的警觉性被彻底稀释。

7月1日,Anthropic官宣Fable 5回归,与此同时,他们推出了业内成本最低的红队方案。
他们启动了一个名为「Cyber Jailbreak」的公开HackerOne项目,邀请用户报告可用于辅助网络攻击的新越狱方法。

注意,这是一个漏洞披露计划(Vulnerability Disclosure Program),而非赏金计划——不支付任何报酬。
Anthropic将获得全球顶尖越狱高手提供的全天候对抗性测试,而桌上唯一的「货币」就是善意。
这项举措是Fable 5恢复后的一次重要安全升级,标志着从被动应对转向主动「众筹」红队。从行业角度看,这确实是一次低成本、高效率的创新尝试。
而问题恰恰也在这里。
发现这些越狱方法的人,并不会悄悄地把它们提交到某个私密邮箱。
像普林尼这样的人,是不会悄无声息地越狱的。他们所做的一部分事情,就是要被人看见——否则,对他们来说还有什么意义呢?

Fable 5惨遭二次越狱
Fable 5又被越狱了——已经是第二次被人撬开。
但这回的复盘,画风有点不一样:动手的黑客,最后反手给Anthropic点了个赞。
他叫Vitto Rivabella。

熬了大约20个小时后,他给出的结论是:这么折腾一圈,还不如打开谷歌搜一下,又快又便宜。

把Fable 5这段坎坷经历捋一捋。
7月1日,它带着一套「专门针对上次漏洞加强过」的新分类器重新上线。
Anthropic这次也学乖了,顺手开了个HackerOne项目,公开邀请全球黑客来报告新的越狱方法。
然后没过几天,Vitto就盯上了它。
Vitto复盘的第一句就是:大多数尝试都失败了,这模型保护得极其到位。
按他的观察,Fable 5的防御至少有
