6月9日,Anthropic 正式推出了两款全新的 AI 模型——Claude Fable 5 与 Claude Mythos 5。Fable 5 是首款面向公众开放使用的 Mythos 级别模型,几乎在全部 AI 能力基准测试中均取得了业界顶尖的 SOTA 成绩;而 Mythos 5 则专为经过认证的网络安全与生物研究用户设计,提供了取消安全限制的完整能力。
Claude Fable 5 与 Mythos 5 正式发布
Fable 5:Anthropic 迄今为止最强的通用模型
简而言之,Fable 5 的能力全面超越 Anthropic 之前发布的所有通用模型。无论是在软件工程、知识工作、视觉理解还是科学研究方面,它都展现出全面领先的水平。处理的任务越复杂、持续时间越长,其领先优势就越明显。
然而,强大的能力也伴随着更高的风险。Fable 5 在网络安全等领域的过人能力一旦被恶意利用,可能会造成严重后果。为此,Anthropic 为其配备了全新的安全机制:针对部分敏感话题的请求,系统会自动切换至 Claude Opus 4.8 进行响应。统计表明,仅有不到 5% 的会话会触发这一回退机制。
Mythos 5:同一模型,不同安全边界
Mythos 5 与 Fable 5 在本质上属于同一模型,区别在于移除了网络安全方面的限制。目前,该模型通过 Project Glasswing 项目进行部署,并与美国政府合作,仅向网络安全防御者及关键基础设施提供商开放。后续,Anthropic 计划通过受信任访问计划逐步扩展其使用范围。
价格:低于 Mythos Preview 的一半
两款模型执行统一的定价方案:
- 输入:10 美元 / 百万 token
- 输出:50 美元 / 百万 token
此前的 Claude Mythos Preview 定价远高于此。Anthropic 明确表示,预计 Fable 5 的需求将远超供应能力,采取低价策略既是出于市场竞争的考虑,也是希望引导用户形成合理的模型使用方式。
核心能力
软件工程
在 Stripe 的早期测试中,Fable 5 在一个包含 5000 万行 Ruby 代码的代码库中完成了完整的全代码库迁移任务。这项工作如果由人工团队完成,通常需要两个多月,而 Fable 5 仅用了一天时间。
在 Cognition 的 FrontierCode 评测中(该评测旨在考察模型在满足生产级代码标准的同时,能否通过高难度的编码挑战),Fable 5 即便采用中等 effort 设置,依然位居前沿模型的首位。
知识工作
在金融 AI 平台 Hebbia 的金融基准测试中,该测试主要面向高级金融推理,Fable 5 取得了所有模型的最高分,在文档推理、图表解读以及问题解决方面实现了全面性能提升。
量化交易公司 IMC 的评估同样显示,Fable 5 在交易分析方面几乎实现了全方位领先,涵盖了事实查询、概念推理、根因分析以及期望值分析等多个维度。
视觉理解
Fable 5 是目前视觉理解任务中的 SOTA 模型。它能够从科学图表中精确提取数值信息,甚至仅凭截图就能重建 Web 应用的源代码。
一个直观的例子是:先前的 Claude 模型即使配备了辅助工具也难以通关《Pokémon FireRed》,而 Fable 5 仅依靠原始游戏截图便顺利通关,完全不需要地图、导航或任何额外的状态信息。
记忆与长上下文
Fable 5 在处理超长任务时能够保持对数百万 token 的注意力集中,并且能利用自身生成的笔记来改进输出结果。在《Slay the Spire》卡牌游戏的测试中,当模型配备持久化文件记忆后,Fable 5 的性能提升幅度是 Opus 4.8 的三倍,其进入最终关卡的概率也是后者的三倍。
自主创作展示
Anthropic 在发布文章中展示了 Fable 5 的几项自主创作成果:
- 太阳系模拟:从物理第一性原理出发推导行星轨道运动,并成功预测日食现象
- Factorio 自动化工厂:自主规划并建造完整的生产工厂
- 3D CAD 建模:在浏览器中设计出可直接进行 3D 打印的模型,其编辑器及内置 AI 副驾驶均由 Fable 5 自行编写
- 流体模拟:编写代码实现了与古典音乐 EDM 混音节拍同步的动态流体动画,而该模型此前从未“听过”任何音乐
药物设计
Mythos 5 在药物设计领域展现出了突破性的能力。Anthropic 内部的蛋白质设计专家利用 Mythos 5,将药物设计流程中的部分环节提速了大约 10 倍。在测试中,配备蛋白质设计与生物信息学工具、且无人为辅助的 Mythos 5,其表现匹配甚至超越了熟练的人类操作员,能够独立完成从选择结合位点、运行设计工具到失败恢复的全过程。
在 14 个蛋白质靶点中,有 9 个产出了具有潜力的药物设计候选方案,相关研究目前正在进一步深入。
分子生物学新假说
Mythos 5 是 Anropic 首款能够持续产出新颖且具有说服力科学假说的模型。在盲测对比中,科学家们约有 80% 的时间更倾向于选择 Mythos 生成的分子生物学假说。一个更具说服力的信号是:Mythos 提出的大肠杆菌蛋白新机制假说,已被另一个独立实验室的研究成果所证实。
基因组学研究
Mythos 5 花费了超过一周的自主工作时间,完成了一项原创性基因组学研究:为 138 个动物物种的数百万细胞组装了单细胞数据,并设计、训练了一个自定义机器学习模型,用于识别远缘生物中执行相同功能的细胞。仅依靠高层的人类指导,该模型便超越了《Science》近期发表的一个模型,而其模型体积仅为后者的百分之一。
安全防护体系
本次发布中最值得深入关注的是其安全机制。Anthropic 为 Fable 5 配备了一套全新的分类器系统,覆盖以下三个领域:
网络安全
Mythos 级模型在发现和利用软件漏洞方面表现极为出色,还能执行完整的攻击链条(包括侦察、发现、横向移动等)。Fable 5 的网络安全分类器覆盖了漏洞利用以及更广泛的攻击性网络任务。
关键数据一览:
- 外部红队测试累计 1000 小时,未发现通用越狱现象
- 在外部合作伙伴的测试中,Fable 5 对有害网络查询实现了零合规,是所有测试模型中防护能力最强的
- 针对 30 种公开的越狱技术,Fable 5 同样保持了零合规
- UK AISI 在初步测试中取得了一定进展,但未能发现完整的越狱方法
生物学与化学
Fable 5 目前针对大多数生物学和化学相关的请求,会主动回退到 Opus 4.8 进行响应。这一策略虽然偏于保守,但 Anthropic 计划尽快收窄相关限制。
一个值得注意的测试结果是:在腺相关病毒(AA V)外壳组装预测任务中,Mythos 级模型仅凭借其生物推理能力,就在 Dyno Therapeutics 开发的治疗相关候选序列上超越了专门的蛋白质语言模型,尽管它并未针对该任务进行过专门训练。这一结果既体现了其正面的潜力,也凸显了双重用途的风险。
蒸馏防护
为了防止 Fable 5 的能力被大规模提取,进而用于训练竞品模型(尤其是在威权国家),分类器会标记疑似蒸馏请求,并自动回退至 Opus 4.8 进行响应。
数据保留政策变更
所有 Mythos 级别模型的流量数据将保留 30 天。Anthropic 承诺这些数据不会用于训练新模型,也不会用于任何非安全目的。同时,设有严格的隐私保护措施:记录所有人工访问行为,并在 30 天后,在绝大多数情况下自动删除这些数据。
客户早期反馈
来自几家关键合作伙伴的评价如下:
可用性
即日起即可使用(模型 ID:claude-fable-5)
Anthropic 预计 Fable 5 的需求将非常高且难以预测,因此采取了分阶段开放策略。6 月 22 日前,订阅用户可免费使用,之后将切换至 usage credits 模式,待容量提升后再行恢复。
我的观察
本次发布包含了几个值得关注的信号:
安全与能力之间的新平衡。Fable 5 采用了“分类器 + 回退”策略,而非直接拒绝。当触发安全分类器时,用户依然可以从 Opus 4.8 获得高质量的响应,体验远优于直接报错。这套机制表明,Anthropic 正在认真解决“如何在开放能力的同时有效控制风险”这一核心难题。
定价策略激进。10 美元 / 50 美元的价格低于此前任意一款 Mythos 级模型,也低于多数竞品的旗舰产品。Anthropic 自己承认需求将远超供应,这一低价策略既是竞争需要,也是引导用户走 API 路线、缓解订阅端压力的重要手段。
科研能力实现质的飞跃。Mythos 5 在蛋白质设计和基因组学上的表现已不仅局限于“辅助工具”的范畴,在特定任务上甚至匹配甚至超越了人类专家。在一个未经专门训练的任务上超越专用模型,表明通用推理能力正在逼近某个临界点。
30 天数据保留是一个重要转变。从隐私角度看需要予以关注,但从安全角度看,这是对跨请求攻击这一真实威胁的务实回应。关键在于 Anthropic 能否坚守“仅用于安全”的承诺。
Mythos 产品线的制度化。从 Mythos Preview 到 Fable 5 + Mythos 5 的双轨发布,Anthropic 正在建立一套可持续的“强能力受限发布”模式:同一模型,根据安全等级以不同形式提供。这很可能成为未来超强模型发布的标准范式。
