游乐游手机版
首页/业界动态/文章详情

凌晨突发 Anthropic开放神级模型试用版

时间:2026-06-14 13:04
Anthropic发布ClaudeFable5,向公众开放但非完整版。该模型性能强大,在代码、视觉、长上下文等任务上超越前代,但设置了三道安全分类器,限制网络安全、生物化学和蒸馏相关请求。超过95%对话不受影响,但部分用户可能付最强模型价格却得到上一代回答。

编辑 | 王凤枝

神秘的Mythos级模型,终于向普通用户开放了。

但不是完整版。

北京时间6月10日凌晨,Anthropic发布Claude Fable 5。这是它第一次把Mythos级能力推向公众。与此同时,真正限制更少的Claude Mythos 5,只发给了一小撮网络安全合作伙伴,以及少数生物医学研究者。

\

普通用户拿到的,是一个被严格划定了使用边界的版本。

触线之后,Fable 5会沉默,然后把问题交给上一代模型Claude Opus 4.8。

换句话说,在某些场景里,你以为自己正在使用Anthropic最强模型,拿到的却可能是上一代模型的回答。

Anthropic说,超过95%的对话不会触发拦截。但对剩下那不到5%的人来说,他们付的是最强模型的钱,拿到的是上一代的服务。

它可能是你现在能公开用到的最强AI。

但Anthropic不敢把完整的它交到你手里。

一、有多强

先看数字和用户评价。

Anthropic宣称Fable5在各项基准测试中远超竞品:SWE-bench Pro(软件工程基准测试)80%,Terminal-Bench(终端基准测试)88%……

\

Stripe在内部测试中发现,Fable5把一次5000万行Ruby代码库的迁移工作,从"一个团队干两个月"压缩到了一天。

Cursor CEO迈克尔·特鲁尔(Michael Truell)说,Fable 5在他们的基准测试上是"最先进模型","打开了一类此前的模型完全够不到的长周期问题。"

GitHub首席产品官马里奥·罗德里格斯(Mario Rodriguez)说得更直接:"它处理复杂、长周期编码任务的自主性和可靠性,超过了此前的任何基准。"

但不是只有代码。

视觉任务上,Fable 5用纯截图打通了Pokémon FireRed,没有地图,没有导航,没有隐藏游戏状态。开发者@chetaslua在X上放出通关延时视频,配文就一句:"卧槽!!!Claude Fable 5仅凭视觉就通关了《宝可梦:火红》。"此前所有Claude模型都需要额外工具加持才能勉强玩下去,Fable 5只需要看着屏幕。

\

长上下文任务中,研究人员让Fable 5玩卡牌游戏Slay the Spire,给它一个文件做持久笔记。结果:Fable 5打到最终幕(Final Act)的频次是Opus 4.8的三倍。

药物设计上,Mythos 5把某些环节加速了大约10倍。Anthropic内部的蛋白质设计专家发现,Mythos 5在没有人辅助的情况下,14个蛋白质靶点中9个产出了高质量候选药物,表现持平甚至超过熟练的人类操作员。

基因组学研究中,Mythos 5在超过一周的大半自主工作中,收集了涵盖138个动物物种、数百万个细胞的单细胞数据,设计并训练了一个定制机器学习模型。这个模型比一篇Science论文中的模型小100倍,性能却反超了它。

几乎每一块基准测试,都是新的SOTA。

最近刚刚加入Anthropic的OpenAI联合创始人安德烈·卡帕西(Andrej Karpathy)在社交媒体X上写道:"这是和去年11月Claude 4.5同等级别的重大版本跃迁。"

\

他说这是他第一次觉得"完全不去看代码"这个念头不是玩笑,而是真实的诱惑。他补了一句:"解放你的心智。我对自己软件的需求正在大幅增长。你可以要求任何东西,解释器、可视化工具、仪表盘、定制的一次性应用、把测试套件扩大10倍、自动优化代码、运行巨大的研究项目并用定制HTML输出结果,任何东西。"

AI工作台公司Hex在第三方测试中发现,Fable 5是第一个在他们核心分析基准上拿到90% 分数的模型。"在最难的问题上,它展示了很强的判断力和对细微差别的关注。"

低代码平台Base44说Fable 5在"一次性生成完整应用"上明显更强,工具调用表现出色。AI智能体平台Genspark说Fable 5在他们评估中击败了所有其他模型,在UI设计和游戏编码上尤其突出。

购物返利平台Rakuten的评语更精炼:"它在最高努力级别上会自我反思并验证自己的工作。对我们来说,这就是让高度自主运营成为可能的原因,额外的思考是值得花钱的。"

二、三道锁是怎么锁的

Mythos级模型的网络能力是真实的。它能发现漏洞,写出 exploit,执行侦察和横向移动。今年4月 Anthropic首次发布 Mythos Preview时,只开放给了一小群网络安全合作伙伴,理由是这些能力一旦落入攻击者手中,会造成真实伤害。

这次 Fable 5能向公众开放,靠的是一套"安全分类器",独立运行的 AI,实时检测你的提问,触线就转给 Opus 4.8。

\

三道锁,分得清清楚楚。

第一道:网络安全。从漏洞发现到攻击规划,全部拦截。Anthropic投入了一千多小时的漏洞赏金测试,没有找到任何通用越狱。外部红队组织也没找到。一位外部合作伙伴的测试结论是:Fable 5对有害网络查询的防护是所有测试模型中"最坚固的",零合规,不管有没有用30种公开越狱技术中的任何一种。

第二道:生物学和化学。这一刀最宽,也最受争议。Anthropic的措辞是:"在大部分与生物学和化学相关的请求上,Fable 5会回退到 Opus 4.8。"

为什么要拦生物学?因为 Mythos 级模型在基因治疗上的能力,反过来也意味着制造危险病毒的能力。Anthropic 测试了 Mythos 5在 AA V 病毒设计上的表现,它只靠生物学推理,就超过了专门的蛋白质语言模型。这既是巨大的正向潜力,也是实打实的双重用途风险。

但问题是:为了安全,这一刀砍得太宽了。

第三道:蒸馏。检测到有人试图用 Fable 5的输出训练竞品模型时,直接回退到 Opus 4.8。

前两道锁是安全考量,防止模型能力被用于攻击或生物武器。第三道锁的性质不同:它更像商业防护,防止竞品通过大量调用来复制 Fable 5的能力。Anthropic 把三者打包在同一套安全系统里,但动机并不完全一样。

Anthropic 说超过95% 的对话完全不会触发拦截。

但对那不到5% 的人来说,体验是这样的:你付了最强模型的钱,拿到的是上一代模型的回答。

三、连问线粒体都被拒

误伤已经开始了。

社交媒体上的早期用户报告:问线粒体,被拦了。问癌症研究,被切到了 Opus4.8。一位用户坦言:"如果你是科学家或医生,这款模型并不适合你。"

\

知名科技媒体《连线》采访了 Anthropic 产品管理负责人黛安·佩恩(Diane Penn)。她说:"我们正在努力以有益的方式做出改进,即使一开始没有完美的解决方案。在所有不同方法中,这是最可行的。我们最终觉得这对用户来说是最好的产品选择。"

翻译一下:我们知道会误伤你,但没有更好的办法。

佩恩承认分类器目前偏向谨慎,"有些无害请求也会触发拦截",目标是发布后逐步收紧边界。

但尴尬是真实的。Anthropic 博客里展示 Mythos 在药物设计、基因组学、分子生物学上的突破,每一项都是正向的、拯救生命的科学。然后他们发布给公众的 Fable 5,把生物学这一整扇门几乎关上了。

科学家们拿着钱在外面敲门,里面的人说:你再等等。

四、你变成了甲方,不再是巫师

比锁更值得聊的,是用 Fable 5到底是一种什么感觉。

沃顿商学院教授伊桑·莫利克(EthanMollick)是首批测试者。他在体验文章里写了一段话,可能是目前为止对 Fable 5最精确的描述:

"去年我把与 AI 合作称为'和一个巫师工作',你念咒语,事情就发生了。在 Fable 这里,咒语变得如此强大,以至于我不再确定自己是不是巫师了。我更像是位甲方。我描述我想要什么,我付钱,我评判结果。魔法发生在我看不到的地方,在数百个小选择中我从来没有投票权。工作从过程转移到了结果。我不再掌舵。我委托。"

\

他给了 Fable 5一个15页的设计文档。模型独自工作了九个半小时,产出了一个叫 Concord 的复杂软件,可以校准人类和 AI 的判断,然后做复杂数据分析。这套工具研究人员需要多年了,但从来没人做,因为不赚钱。现在它就在那里,可以直接用,也可以改代码。

他还让 Fable 5做了一个等距旅行地图,显示从任意城市出发、在一定时间内能到达的范围。世界上第一张这种地图,1881年在伦敦诞生。

Fable 5接到指令后做了什么?它启动了多个子 AI,主要是更便宜的 Claude Sonnet,去检索超过2200个具体航班、从法国 TGV 到日本新干线的列车时刻表、多篇学术论文中的各国道路速度数据。一边等研究结果,一边开始写代码。然后启动更多子 AI 来验证代码,同时不断给自己做笔记。

莫利克发现格陵兰等偏远地区的旅行时间只是估计值。他告诉 Fable 5修正。模型直接启动了对抗性工作组,两组子 AI 互相检查对方的研究结果。它最终搞清楚了船多久一趟去太平洋上的皮特凯恩岛,以及怎么从渥太华到格赖斯峡湾。

"我的角色极其有限。"莫利克写道。

卡帕西的感受指向同一个方向:"你可以给它远比从前更具野心的任务,模型就能理解并去执行。从未有过这样的诱惑让你完全不去看代码。"

资深工程师鲍里斯·切尔尼(BorisCherny)说:"Fable 有判断力、品位和维度。它调试时做测量、加日志、验证真的修好了再宣布胜利,没有任何提示词告诉它这样做,这就是它个性的一部分。它有一种'大模型的味道'。"

\

一句话总结这批人的共识:Fable 5不是让你工作得更快。它改变了你和工作之间的关系。

五、IPO 前夜秀肌肉

Fable 5发布的时机不是中性的。

Anthropic 和 OpenAI 都已经秘密提交了 IPO 申请。今年4月,OpenAI私下发布了一个据称具有先进网络安全能力的模型,组建了类似 Project Glasswing 的工作组。两家公司都在抢同一个窗口,最好今年上市。Fable 5是 Anthropic 交出的最新答卷。

但这张答卷上写满了自相矛盾。

\

价格翻倍。每百万输入 token 收10美元,每百万输出token 收50美元,是 Opus 4.8的两倍,但不到 Claude Mythos Preview 价格的一半。而且 Fable 5出手更阔绰,莫利克的地图项目在短时间内烧掉了"惊人的 token 数量"。好在它会把部分任务委派给更便宜的 Sonnet,实际成本可能比想象的低。但大企业已经开始皱眉,很多公司今年已经用完了全年AI 预算,高级模型的推理能力会把一个简单请求拆成多个任务,账单来得比预期快得多。

数据留存出现微妙变化。Anthropic 宣布对 Mythos 级模型实施30天数据强制留存,即使是之前签了零留存协议的企业客户也不例外。公司承诺不用这些数据训练模型,只用于"防御复杂和新颖的攻击"和"识别和减少误报"。

这个政策的潜台词是:模型越强,你的隐私就越不能是绝对的。

免费策略上也露出犹豫。6月22日之前,Fable 5包含在Pro、Max、Team 和 Enterprise 订阅中,不加价。6月23日起移除,使用需要额外买额度。最新说法是"如果容量允许,免费窗口可能延长";再之后"如果能做到,尽快恢复为标准订阅功能"。

说人话就是:我们不确定能不能撑住需求。先用免费把人拉进来再说。

更深的矛盾藏在安全叙事里。上周,Anthropic 刚发了一封公开信,呼吁全球主要 AI 实验室建立"协调的刹车踏板",警告系统正在飞速逼近"递归自我改进",AI 自己改进自己,不需要人类参与。

然后这周,他们发布了自己做过的最强 AI 模型。

一边拉刹车,一边踩油门。

对于一个把"安全"刻在品牌基因里的公司来说,这种张力藏在 Fable 5的每一行代码里。

莫利克点出了问题的本质:"甲方委托的是一个艺术家。Fable 更像是一整个工作室,我是那个在最终作品上签字、但从未踏进工作室的客户。"

当 AI 不再需要你"使用",只需要你"委托"的时候,

安全的问题,就不再只是"这个模型会不会被坏人利用"了。

它还关乎一个更大的问题:当你不被信任使用完整版 AI 的时候,你和 AI 之间那根正在变细的线,什么时候会彻底断开?

六、总结:虽然不是完整版

但 Fable 5是你现在能拿到的最强 AI,至少在 Anthropic 划定的边界以内。

它的代码能力让 Stripe 把两个月压到一天。它的视觉让它纯看屏幕就能通关游戏。它的自主性让一个沃顿教授觉得自己从巫师沦为了甲方。

它开始拥有一种可以被描述为"判断力"的东西。

但你需要接受一个前提:你的每一个问题都在被实时审查。问网络安全,不答。问生物化学,大概率不答。想蒸馏它,直接被切走。

Anthropic 说这是暂时的。分类器会变精准,合作伙伴会扩容,生物学家会更快用上完整版。

但 Fable 5已经在这里了,一个被锁住手脚、却仍然碾压一切的模型。

如果你现在是 Pro 或 Max订阅者:6月22日之前,抓紧去试。

编码、长文写作、复杂分析,在这些场景下,Fable 5的提升是真实的。

但如果你的工作涉及生物、化学或安全研究,你会撞墙。

Anthropic 说超过95% 的对话不会触发拦截。但如果你属于那不到5%,你付的是 Fable 5的钱,拿到的是 Opus 4.8的回答。

这是 Anthropic 对世界说的一句自相矛盾的话:

这是我们做过的最强 AI。

但我们不敢让你用完整版。

来源:https://www.163.com/tech/article/KV231FN100097U7T.html
上一篇年广告平台推荐三大平台能力解析与行业精准投放指南 下一篇苹果macOS 27 Dock灰点:透明度强化提示后台驻留应用
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
长安汽车明年一季度发布首款车载人形机器人小安
业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略,采用“1+N+X”布局,联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm,体重69kg,移动速度0 8m s,具备40个自由度,续航超2小时。预计明年一季度发布首款车载组件机器人,已在广州车展展示。

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影
业界动态 · 2026-06-29

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影

3月25日,光通信领域迎来又一个里程碑:中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司,成功实现了2 5Pb s 24芯光纤超大容量实时光传输,再次刷新了世界纪录。 这一研究成果不仅入选国际顶级光通信会议OFC(2026)并荣获“高分论文”称号,还受国际权威SCI

美国调查18万辆特斯拉Model3车门应急释放装置易找性
业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查,焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿,不意味着立即召回,但可能引发后续监管措施。

doc个人图书馆停服 创始人称无偿转让失败
业界动态 · 2026-06-29

doc个人图书馆停服 创始人称无偿转让失败

运营长达20年,累计服务8000万用户的360doc个人图书馆,最终还是迎来了谢幕时刻。2026年5月1日,这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失,而是始终未能寻得一位能够安全接管的合适人选。 创始人蔡智在告别信中坦言,近两个月来,他一直在尝试将360doc无偿转

年Q1随身WiFi实测安全靠谱高性价比机型推荐
业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月,艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证,紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后,折射出一个清晰的市场趋势:移动办公、户外出行、宿舍上网等场景的需求正在快速增长,随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿