凌晨突发 Anthropic开放神级模型试用版

时间：2026-06-14 13:04

Anthropic发布ClaudeFable5，向公众开放但非完整版。该模型性能强大，在代码、视觉、长上下文等任务上超越前代，但设置了三道安全分类器，限制网络安全、生物化学和蒸馏相关请求。超过95%对话不受影响，但部分用户可能付最强模型价格却得到上一代回答。

编辑 | 王凤枝

神秘的Mythos级模型，终于向普通用户开放了。

但不是完整版。

北京时间6月10日凌晨，Anthropic发布Claude Fable 5。这是它第一次把Mythos级能力推向公众。与此同时，真正限制更少的Claude Mythos 5，只发给了一小撮网络安全合作伙伴，以及少数生物医学研究者。

普通用户拿到的，是一个被严格划定了使用边界的版本。

触线之后，Fable 5会沉默，然后把问题交给上一代模型Claude Opus 4.8。

换句话说，在某些场景里，你以为自己正在使用Anthropic最强模型，拿到的却可能是上一代模型的回答。

Anthropic说，超过95%的对话不会触发拦截。但对剩下那不到5%的人来说，他们付的是最强模型的钱，拿到的是上一代的服务。

它可能是你现在能公开用到的最强AI。

但Anthropic不敢把完整的它交到你手里。

一、有多强

先看数字和用户评价。

Anthropic宣称Fable5在各项基准测试中远超竞品：SWE-bench Pro（软件工程基准测试）80%，Terminal-Bench（终端基准测试）88%……

Stripe在内部测试中发现，Fable5把一次5000万行Ruby代码库的迁移工作，从"一个团队干两个月"压缩到了一天。

Cursor CEO迈克尔·特鲁尔（Michael Truell）说，Fable 5在他们的基准测试上是"最先进模型"，"打开了一类此前的模型完全够不到的长周期问题。"

GitHub首席产品官马里奥·罗德里格斯（Mario Rodriguez）说得更直接："它处理复杂、长周期编码任务的自主性和可靠性，超过了此前的任何基准。"

但不是只有代码。

视觉任务上，Fable 5用纯截图打通了Pokémon FireRed，没有地图，没有导航，没有隐藏游戏状态。开发者@chetaslua在X上放出通关延时视频，配文就一句："卧槽！！！Claude Fable 5仅凭视觉就通关了《宝可梦：火红》。"此前所有Claude模型都需要额外工具加持才能勉强玩下去，Fable 5只需要看着屏幕。

长上下文任务中，研究人员让Fable 5玩卡牌游戏Slay the Spire，给它一个文件做持久笔记。结果：Fable 5打到最终幕（Final Act）的频次是Opus 4.8的三倍。

药物设计上，Mythos 5把某些环节加速了大约10倍。Anthropic内部的蛋白质设计专家发现，Mythos 5在没有人辅助的情况下，14个蛋白质靶点中9个产出了高质量候选药物，表现持平甚至超过熟练的人类操作员。

基因组学研究中，Mythos 5在超过一周的大半自主工作中，收集了涵盖138个动物物种、数百万个细胞的单细胞数据，设计并训练了一个定制机器学习模型。这个模型比一篇Science论文中的模型小100倍，性能却反超了它。

几乎每一块基准测试，都是新的SOTA。

最近刚刚加入Anthropic的OpenAI联合创始人安德烈·卡帕西（Andrej Karpathy）在社交媒体X上写道："这是和去年11月Claude 4.5同等级别的重大版本跃迁。"

他说这是他第一次觉得"完全不去看代码"这个念头不是玩笑，而是真实的诱惑。他补了一句："解放你的心智。我对自己软件的需求正在大幅增长。你可以要求任何东西，解释器、可视化工具、仪表盘、定制的一次性应用、把测试套件扩大10倍、自动优化代码、运行巨大的研究项目并用定制HTML输出结果，任何东西。"

AI工作台公司Hex在第三方测试中发现，Fable 5是第一个在他们核心分析基准上拿到90% 分数的模型。"在最难的问题上，它展示了很强的判断力和对细微差别的关注。"

低代码平台Base44说Fable 5在"一次性生成完整应用"上明显更强，工具调用表现出色。AI智能体平台Genspark说Fable 5在他们评估中击败了所有其他模型，在UI设计和游戏编码上尤其突出。

购物返利平台Rakuten的评语更精炼："它在最高努力级别上会自我反思并验证自己的工作。对我们来说，这就是让高度自主运营成为可能的原因，额外的思考是值得花钱的。"

二、三道锁是怎么锁的

Mythos级模型的网络能力是真实的。它能发现漏洞，写出 exploit，执行侦察和横向移动。今年4月 Anthropic首次发布 Mythos Preview时，只开放给了一小群网络安全合作伙伴，理由是这些能力一旦落入攻击者手中，会造成真实伤害。

这次 Fable 5能向公众开放，靠的是一套"安全分类器"，独立运行的 AI，实时检测你的提问，触线就转给 Opus 4.8。

三道锁，分得清清楚楚。

第一道：网络安全。从漏洞发现到攻击规划，全部拦截。Anthropic投入了一千多小时的漏洞赏金测试，没有找到任何通用越狱。外部红队组织也没找到。一位外部合作伙伴的测试结论是：Fable 5对有害网络查询的防护是所有测试模型中"最坚固的"，零合规，不管有没有用30种公开越狱技术中的任何一种。

第二道：生物学和化学。这一刀最宽，也最受争议。Anthropic的措辞是："在大部分与生物学和化学相关的请求上，Fable 5会回退到 Opus 4.8。"

为什么要拦生物学？因为 Mythos 级模型在基因治疗上的能力，反过来也意味着制造危险病毒的能力。Anthropic 测试了 Mythos 5在 AA V 病毒设计上的表现，它只靠生物学推理，就超过了专门的蛋白质语言模型。这既是巨大的正向潜力，也是实打实的双重用途风险。

但问题是：为了安全，这一刀砍得太宽了。

第三道：蒸馏。检测到有人试图用 Fable 5的输出训练竞品模型时，直接回退到 Opus 4.8。

前两道锁是安全考量，防止模型能力被用于攻击或生物武器。第三道锁的性质不同：它更像商业防护，防止竞品通过大量调用来复制 Fable 5的能力。Anthropic 把三者打包在同一套安全系统里，但动机并不完全一样。

Anthropic 说超过95% 的对话完全不会触发拦截。

但对那不到5% 的人来说，体验是这样的：你付了最强模型的钱，拿到的是上一代模型的回答。

三、连问线粒体都被拒

误伤已经开始了。

社交媒体上的早期用户报告：问线粒体，被拦了。问癌症研究，被切到了 Opus4.8。一位用户坦言："如果你是科学家或医生，这款模型并不适合你。"

知名科技媒体《连线》采访了 Anthropic 产品管理负责人黛安·佩恩（Diane Penn）。她说："我们正在努力以有益的方式做出改进，即使一开始没有完美的解决方案。在所有不同方法中，这是最可行的。我们最终觉得这对用户来说是最好的产品选择。"

翻译一下：我们知道会误伤你，但没有更好的办法。

佩恩承认分类器目前偏向谨慎，"有些无害请求也会触发拦截"，目标是发布后逐步收紧边界。

但尴尬是真实的。Anthropic 博客里展示 Mythos 在药物设计、基因组学、分子生物学上的突破，每一项都是正向的、拯救生命的科学。然后他们发布给公众的 Fable 5，把生物学这一整扇门几乎关上了。

科学家们拿着钱在外面敲门，里面的人说：你再等等。

四、你变成了甲方，不再是巫师

比锁更值得聊的，是用 Fable 5到底是一种什么感觉。

沃顿商学院教授伊桑·莫利克（EthanMollick）是首批测试者。他在体验文章里写了一段话，可能是目前为止对 Fable 5最精确的描述：

"去年我把与 AI 合作称为'和一个巫师工作'，你念咒语，事情就发生了。在 Fable 这里，咒语变得如此强大，以至于我不再确定自己是不是巫师了。我更像是位甲方。我描述我想要什么，我付钱，我评判结果。魔法发生在我看不到的地方，在数百个小选择中我从来没有投票权。工作从过程转移到了结果。我不再掌舵。我委托。"

他给了 Fable 5一个15页的设计文档。模型独自工作了九个半小时，产出了一个叫 Concord 的复杂软件，可以校准人类和 AI 的判断，然后做复杂数据分析。这套工具研究人员需要多年了，但从来没人做，因为不赚钱。现在它就在那里，可以直接用，也可以改代码。

他还让 Fable 5做了一个等距旅行地图，显示从任意城市出发、在一定时间内能到达的范围。世界上第一张这种地图，1881年在伦敦诞生。

Fable 5接到指令后做了什么？它启动了多个子 AI，主要是更便宜的 Claude Sonnet，去检索超过2200个具体航班、从法国 TGV 到日本新干线的列车时刻表、多篇学术论文中的各国道路速度数据。一边等研究结果，一边开始写代码。然后启动更多子 AI 来验证代码，同时不断给自己做笔记。

莫利克发现格陵兰等偏远地区的旅行时间只是估计值。他告诉 Fable 5修正。模型直接启动了对抗性工作组，两组子 AI 互相检查对方的研究结果。它最终搞清楚了船多久一趟去太平洋上的皮特凯恩岛，以及怎么从渥太华到格赖斯峡湾。

"我的角色极其有限。"莫利克写道。

卡帕西的感受指向同一个方向："你可以给它远比从前更具野心的任务，模型就能理解并去执行。从未有过这样的诱惑让你完全不去看代码。"

资深工程师鲍里斯·切尔尼（BorisCherny）说："Fable 有判断力、品位和维度。它调试时做测量、加日志、验证真的修好了再宣布胜利，没有任何提示词告诉它这样做，这就是它个性的一部分。它有一种'大模型的味道'。"

一句话总结这批人的共识：Fable 5不是让你工作得更快。它改变了你和工作之间的关系。

五、IPO 前夜秀肌肉

Fable 5发布的时机不是中性的。

Anthropic 和 OpenAI 都已经秘密提交了 IPO 申请。今年4月，OpenAI私下发布了一个据称具有先进网络安全能力的模型，组建了类似 Project Glasswing 的工作组。两家公司都在抢同一个窗口，最好今年上市。Fable 5是 Anthropic 交出的最新答卷。

但这张答卷上写满了自相矛盾。

价格翻倍。每百万输入 token 收10美元，每百万输出token 收50美元，是 Opus 4.8的两倍，但不到 Claude Mythos Preview 价格的一半。而且 Fable 5出手更阔绰，莫利克的地图项目在短时间内烧掉了"惊人的 token 数量"。好在它会把部分任务委派给更便宜的 Sonnet，实际成本可能比想象的低。但大企业已经开始皱眉，很多公司今年已经用完了全年AI 预算，高级模型的推理能力会把一个简单请求拆成多个任务，账单来得比预期快得多。

数据留存出现微妙变化。Anthropic 宣布对 Mythos 级模型实施30天数据强制留存，即使是之前签了零留存协议的企业客户也不例外。公司承诺不用这些数据训练模型，只用于"防御复杂和新颖的攻击"和"识别和减少误报"。

这个政策的潜台词是：模型越强，你的隐私就越不能是绝对的。

免费策略上也露出犹豫。6月22日之前，Fable 5包含在Pro、Max、Team 和 Enterprise 订阅中，不加价。6月23日起移除，使用需要额外买额度。最新说法是"如果容量允许，免费窗口可能延长"；再之后"如果能做到，尽快恢复为标准订阅功能"。

说人话就是：我们不确定能不能撑住需求。先用免费把人拉进来再说。

更深的矛盾藏在安全叙事里。上周，Anthropic 刚发了一封公开信，呼吁全球主要 AI 实验室建立"协调的刹车踏板"，警告系统正在飞速逼近"递归自我改进"，AI 自己改进自己，不需要人类参与。

然后这周，他们发布了自己做过的最强 AI 模型。

一边拉刹车，一边踩油门。

对于一个把"安全"刻在品牌基因里的公司来说，这种张力藏在 Fable 5的每一行代码里。

莫利克点出了问题的本质："甲方委托的是一个艺术家。Fable 更像是一整个工作室，我是那个在最终作品上签字、但从未踏进工作室的客户。"

当 AI 不再需要你"使用"，只需要你"委托"的时候，

安全的问题，就不再只是"这个模型会不会被坏人利用"了。

它还关乎一个更大的问题：当你不被信任使用完整版 AI 的时候，你和 AI 之间那根正在变细的线，什么时候会彻底断开？

六、总结：虽然不是完整版

但 Fable 5是你现在能拿到的最强 AI，至少在 Anthropic 划定的边界以内。

它的代码能力让 Stripe 把两个月压到一天。它的视觉让它纯看屏幕就能通关游戏。它的自主性让一个沃顿教授觉得自己从巫师沦为了甲方。

它开始拥有一种可以被描述为"判断力"的东西。

但你需要接受一个前提：你的每一个问题都在被实时审查。问网络安全，不答。问生物化学，大概率不答。想蒸馏它，直接被切走。

Anthropic 说这是暂时的。分类器会变精准，合作伙伴会扩容，生物学家会更快用上完整版。

但 Fable 5已经在这里了，一个被锁住手脚、却仍然碾压一切的模型。

如果你现在是 Pro 或 Max订阅者：6月22日之前，抓紧去试。

编码、长文写作、复杂分析，在这些场景下，Fable 5的提升是真实的。

但如果你的工作涉及生物、化学或安全研究，你会撞墙。

Anthropic 说超过95% 的对话不会触发拦截。但如果你属于那不到5%，你付的是 Fable 5的钱，拿到的是 Opus 4.8的回答。

这是 Anthropic 对世界说的一句自相矛盾的话：

这是我们做过的最强 AI。

但我们不敢让你用完整版。

来源：https://www.163.com/tech/article/KV231FN100097U7T.html

Anthropic

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。