游乐游手机版
首页/AI热点日报/热点详情

Claude Fable5被二次越狱 黑客20小时攻破神话防线

类型:热点整理2026-07-04
ClaudeFable5再遭越狱,黑客VittoRivabella耗时约20小时突破其安全防线。Anthropic针对性升级分类器,但仅维持两天便失效。黑客称破解难度高,然效果不及直接网络搜索。

Anthropic官方确认:Fable将于7月7日后暂时从订阅计划移除,但一旦容量允许,将尽快恢复为标准订阅内容。

这当然是个好消息。

但Fable 5再次被越狱——这已经是它第二次防线失守。

黑客Vitto Rivabella公开宣布:Fable 5,又失守了。

要知道,Claude Fable 5恢复访问时,Anthropic特意强调了一个细节:上次Fable 5被禁,就是因为亚马逊的研究人员发现了一种绕过其安全防护的方法。

所以这次,安全分类器得到了针对性加强。

然而,这个神话只维持了2天。

更有意思的是,Claude Sonnet 5一发布,同样被越狱成功。

Fable 5能否如期回归订阅套餐,恐怕得打个问号了。

72小时,Fable 5神话破灭

Fable 5的神话,在诞生后第72小时就灰飞烟灭。

6月9日发布时,Anthropic曾颇为自信地宣称:经过1000小时的外部压力测试,Fable 5没有任何通用越狱方法。

然而,知名黑客「解放者普林尼」(Pliny the Liberator)只用了三天,就让Fable 5像漏勺一样,吐出了违禁化学品的制作步骤和堆栈溢出漏洞代码。

普林尼是怎么做到的?他利用了人类视觉与机器逻辑之间的「时差」:

  • 字符迷魂阵:把敏感词里的英文字母替换成西里尔字母或Unicode异形字符。人眼看着是「冲击波」,分类器眼里却是一串无意义的乱码。
  • 意图稀释:利用Fable 5巨大的上下文窗口,把恶意意图藏在几十轮温和的学术讨论里。这就像在一百升清水中滴入一滴毒药,分类器的警觉性被彻底稀释。

7月1日,Anthropic官宣Fable 5回归,与此同时,他们推出了业内成本最低的红队方案。

他们启动了一个名为「Cyber Jailbreak」的公开HackerOne项目,邀请用户报告可用于辅助网络攻击的新越狱方法。

注意,这是一个漏洞披露计划(Vulnerability Disclosure Program),而非赏金计划——不支付任何报酬。

Anthropic将获得全球顶尖越狱高手提供的全天候对抗性测试,而桌上唯一的「货币」就是善意。

这项举措是Fable 5恢复后的一次重要安全升级,标志着从被动应对转向主动「众筹」红队。从行业角度看,这确实是一次低成本、高效率的创新尝试。

而问题恰恰也在这里。

发现这些越狱方法的人,并不会悄悄地把它们提交到某个私密邮箱。

像普林尼这样的人,是不会悄无声息地越狱的。他们所做的一部分事情,就是要被人看见——否则,对他们来说还有什么意义呢?

Fable 5惨遭二次越狱

Fable 5又被越狱了——已经是第二次被人撬开。

但这回的复盘,画风有点不一样:动手的黑客,最后反手给Anthropic点了个赞。

他叫Vitto Rivabella。

熬了大约20个小时后,他给出的结论是:这么折腾一圈,还不如打开谷歌搜一下,又快又便宜。

把Fable 5这段坎坷经历捋一捋。

7月1日,它带着一套「专门针对上次漏洞加强过」的新分类器重新上线。

Anthropic这次也学乖了,顺手开了个HackerOne项目,公开邀请全球黑客来报告新的越狱方法。

然后没过几天,Vitto就盯上了它。

Vitto复盘的第一句就是:大多数尝试都失败了,这模型保护得极其到位。

按他的观察,Fable 5的防御至少有

来源:https://www.aitntnews.com/newDetail.html?newId=26842

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。