人类或许正在以一种超出常规认知的速度被AI超越。
不知道大家现在的状态如何,反正我已经彻底离不开AI了。每天的工作中,至少有50%是在AI辅助下完成的——而且这个比例还在持续攀升。
随着一代又一代新模型的发布,我的工作效率和质量逐步提升,每个月在Token上的开销也随之水涨船高。
昨晚看到一条消息:Anthropic推出了一款连他们自己都不敢全面开放给所有用户的模型——因为它的能力实在太强了。
这个新模型名为「Mythos」,中文意思是「神话」。目前还是预览版,所以全称叫「Mythos Preview」。不过,它是通过一个名为「Project Glasswing」的项目形式发布的。这个项目后面会细说。

上个月,Anthropic一份内部文档意外流出,提到有一个比Opus更大、更强的模型正在开发,代号正是Mythos。随后,Anthropic将这次泄露归因为「人为失误」,也未做过多解释。
现在,Mythos算是正式亮相了。但亮相归亮相,并未公开上线——普通用户暂时无法使用。
原因很直接:Anthropic认为这个模型过于强大,在安全机制完善之前,不适合向所有人开放。
这句话值得停下来思考片刻。
通常情况下,一家AI公司发布新模型,恨不得第一时间上线抢占市场。但这次Anthropic的做法明显反常——不是不想发,而是不敢发。因为Mythos确实强得离谱。
先看几组最新公布的测试数据。
在编码能力上,Mythos与目前公开最强的Claude Opus 4.6相比差距显著,各项基准测试中,Mythos基本实现了全面碾压。

推理能力方面,在GPQA Diamond(研究生水平科学问答)测试中,结果为94.6%对91.3%,Mythos胜出。
在Humanity's Last Exam有工具和无工具测试中,同样是Mythos全面领先。

与Agent相关的计算机操作能力方面,OSWorld-Verified(自主完成电脑任务)测试中,Mythos以79.6%的成绩超过Opus 4.6的72.7%。
每一项维度,Mythos都强于Opus 4.6,有些甚至是碾压式的超越。

在某些任务上,差距已经不是小步迭代,而是大幅跃升。比如SWE-bench Multimodal,从27.1%直接跃升至59%,几乎翻了一倍。
让Anthropic不敢上线Mythos的核心原因,在于它突破软件世界安全防线的能力实在太强了。
说白了,全球所有的系统和软件都存在漏洞,而Mythos能以超过人类的水平发现并利用这些漏洞。
假设这种能力被黑客掌控,全球的操作系统和软件都将面临严重威胁——尤其是公共基础设施和国家安全领域。
Anthropic在公告中有一句话,细思极恐。

翻译过来就是:「AI模型的编码能力已经达到极高水平,在发现和利用软件漏洞方面,它们几乎可以超越除最熟练的人类之外的所有人」。
关于这句话,值得我们深入解读一下。
程序员出身的人都知道软件的构建方式,以及不同人写出的代码差异有多大。而且,没有任何软件敢说自己没有漏洞,即便这个漏洞从未被发现过。
过去那些能够几十年安静躺在系统里的漏洞,不是因为系统足够安全,而是因为寻找漏洞需要极高的专业能力、极大的耐心和精力,以及大量的时间。会的人太少,敢投入的人更少。
这种「能力稀缺」,构成了整个软件安全领域的隐性前提。AI介入之后,这个前提开始松动。
AI能以超过大多数非顶尖人类能力的方式开展工作——既可以利用它攻击漏洞,当然也能用它来堵住漏洞。
为了解决这个问题,Anthropic推出了Project Glasswing。
简单来说,这是一个利用Mythos的能力帮助全球基础设施系统寻找bug的项目。参与方包括AWS、苹果、微软、谷歌、英伟达、思科、Linux基金会等共计12家机构。

这个阵容覆盖了云计算、操作系统、芯片、浏览器、金融基础设施、网络安全和开源生态——全球数字基础设施的核心参与者几乎悉数入列。
项目的核心逻辑只有一条:让防守方率先使用这款顶级AI模型的能力。因为如果攻击方先拿到同等级的工具,窗口一旦打开就很难关闭。Anthropic承诺提供1亿美元的模型使用额度,覆盖研究预览期。
除了12家核心机构,还有超过40个维护关键软件基础设施的组织获得了访问权限,可以利用Mythos扫描自家系统和开源项目。
同时,Anthropic向Linux基金会捐赠了250万美元,向Apache软件基金会捐赠了150万美元——这两者都是软件世界的基础设施。我们现在使用的各种App、系统,基本上都以它们为底层架构。
从某种角度看,Anthropic这次算是做了一件好事:不仅推出了更强的模型,还花钱让全球信息基础设施完善自身。毕竟,如果直接裸上,对谁都没有好处。
说到这里,你可能还是感受不到Mythos到底有多强。从最新原文中找到三个具体案例,比数字更能说明问题。

第一个,OpenBSD。
这是公认安全性极高的操作系统,很多关键基础设施会运行其上,包括苹果手机iOS系统、Android系统,甚至一些企业和机构内部系统。Mythos在其中发现了一个存在了27年的漏洞——攻击者只要连上目标机器,就能让它远程崩溃。
27年!不是没人在意,而是根本没人找到。
第二个,FFmpeg。
几乎所有需要处理视频的软件都依赖它,各种视频播放软件基本上都有它的身影。有一个漏洞躲在一行写于16年前的代码里,自动化测试工具反复攻击了整整500万次,每次都没成功。但Mythos找到了。
第三个,Linux内核。
这就不用多说了,基本上可以视为整个互联网的基础设施,也最值得警惕。Mythos不仅发现了几个独立的漏洞,而是将多个漏洞串联成一条攻击链——从普通用户权限开始,一路提权,最终实现对整台机器的完全控制。
关于Linux这个案例,和前两个的性质完全不同。
发现漏洞,是分析能力。而串连漏洞,就是策略能力了。就好比很多产品经理,会画原型图、会写文档、会做数据分析,这些是单点能力;但把业务、产品、商业串联起来,就是策略能力。一个能够规划攻击路径的模型,已经不仅仅是审计工具,更接近于一个能在数字环境中主动行动的智能体。
以上三个案例,Anthropic采取的都是先发现、先报告、先修复、再披露的方式,目前均已修复。
看到这里,你就知道Mythos有多强了——就像一头暂时不敢被放出笼的猛兽,现实世界需要先做好迎接它的准备。
几个观察,或许也是接下来真正变化的开始。
第一,软件世界的安全假设正在失效。
今天习以为常的软件稳定性,并不完全来自系统设计足够好。很大程度上,它依赖的是攻击能力的稀缺。说得直白点:不是软件足够强,而是人不够强。
发现漏洞需要成本,构建利用链需要时间,大规模扫描需要资源。所以很多技术债、陈年bug、老旧系统就那样存活着,从未被认真清理过。就像做产品一样,觉得逻辑闭环了、没问题了,并不代表真的万事无忧,很可能是能力上限到了。
Mythos展现的能力,意味着漏洞从被发现到被利用的时间窗口,从过去的几个月被压缩到了几分钟。
几分钟意味着什么?意味着补丁的节奏、修复的流程,已经开始跟不上攻击的速度了。
第二,开源世界会最先感受到压力。
今天大多数现代软件,底层都压着大量开源依赖。平时看不见,一旦被打穿,就是全行业同时受影响。用大白话说:现在使用的所有软件都有开源项目作为底层,而这些项目的源代码是对所有人可见的。
未来,当模型能够持续、大规模地扫描开源项目时,开源社区维护者们面临的压力级别将完全不同。这也是为什么Anthropic要给Linux基金会和Apache基金会捐钱的原因——不是做公益,而是承认开源基础设施是AI时代整个数字世界最脆弱、也最不能倒的那层地基。他们不想被当成坏人和恶人而已。
第三,人会被弱化,AI开始与AI博弈。
过去互联网产品安全团队的价值,在于人的判断力、经验积累和对系统的深度理解。未来,这件事将换一个逻辑——比的是谁的模型更强,谁的工具接得更快,谁能把AI审计嵌入开发流程的最前端。
这不是程序员被替代的问题,而是安全行业本身的生产方式将重组。好的一面是,数千个高危漏洞可以在几周内被找出来。麻烦的是,攻击方迟早也会拥有同等级的工具。
到那个时候,软件产品的安全不再是人与人的对抗,而是模型与模型之间的攻防博弈。
这次,Anthropic不仅发布了能力,还发布了风险——可能是目前这个阶段,整个行业最需要看到的那种诚实。
所有人都在谈AI如何改变工作效率,这没问题。但Mythos也在提醒我们:AI能力的跃迁,最终会从内容世界传导到软件世界,再传导到整个数字世界的基础设施。
内容世界被改写,影响的是流量逻辑。
软件世界被改写,动的是地基。
电影《2012》里有一句台词,就作为这篇文章的结尾吧——「无论你是谁,不分种族,不分国家,明天我们都没有区别!」
