人工智能如此强大却不敢让普通人用已发布上线

时间：2026-06-29 13:39

人类或许正在以一种超出常规认知的速度被AI超越。不知道大家现在的状态如何，反正我已经彻底离不开AI了。每天的工作中，至少有50%是在AI辅助下完成的——而且这个比例还在持续攀升。随着一代又一代新模型的发布，我的工作效率和质量逐步提升，每个月在Token上的开销也随之水涨船高。昨晚看到一条消息：

人类或许正在以一种超出常规认知的速度被AI超越。

不知道大家现在的状态如何，反正我已经彻底离不开AI了。每天的工作中，至少有50%是在AI辅助下完成的——而且这个比例还在持续攀升。

随着一代又一代新模型的发布，我的工作效率和质量逐步提升，每个月在Token上的开销也随之水涨船高。

昨晚看到一条消息：Anthropic推出了一款连他们自己都不敢全面开放给所有用户的模型——因为它的能力实在太强了。

这个新模型名为「Mythos」，中文意思是「神话」。目前还是预览版，所以全称叫「Mythos Preview」。不过，它是通过一个名为「Project Glasswing」的项目形式发布的。这个项目后面会细说。

上个月，Anthropic一份内部文档意外流出，提到有一个比Opus更大、更强的模型正在开发，代号正是Mythos。随后，Anthropic将这次泄露归因为「人为失误」，也未做过多解释。

现在，Mythos算是正式亮相了。但亮相归亮相，并未公开上线——普通用户暂时无法使用。

原因很直接：Anthropic认为这个模型过于强大，在安全机制完善之前，不适合向所有人开放。

这句话值得停下来思考片刻。

通常情况下，一家AI公司发布新模型，恨不得第一时间上线抢占市场。但这次Anthropic的做法明显反常——不是不想发，而是不敢发。因为Mythos确实强得离谱。

先看几组最新公布的测试数据。

在编码能力上，Mythos与目前公开最强的Claude Opus 4.6相比差距显著，各项基准测试中，Mythos基本实现了全面碾压。

推理能力方面，在GPQA Diamond（研究生水平科学问答）测试中，结果为94.6%对91.3%，Mythos胜出。

在Humanity's Last Exam有工具和无工具测试中，同样是Mythos全面领先。

与Agent相关的计算机操作能力方面，OSWorld-Verified（自主完成电脑任务）测试中，Mythos以79.6%的成绩超过Opus 4.6的72.7%。

每一项维度，Mythos都强于Opus 4.6，有些甚至是碾压式的超越。

在某些任务上，差距已经不是小步迭代，而是大幅跃升。比如SWE-bench Multimodal，从27.1%直接跃升至59%，几乎翻了一倍。

让Anthropic不敢上线Mythos的核心原因，在于它突破软件世界安全防线的能力实在太强了。

说白了，全球所有的系统和软件都存在漏洞，而Mythos能以超过人类的水平发现并利用这些漏洞。

假设这种能力被黑客掌控，全球的操作系统和软件都将面临严重威胁——尤其是公共基础设施和国家安全领域。

Anthropic在公告中有一句话，细思极恐。

翻译过来就是：「AI模型的编码能力已经达到极高水平，在发现和利用软件漏洞方面，它们几乎可以超越除最熟练的人类之外的所有人」。

关于这句话，值得我们深入解读一下。

程序员出身的人都知道软件的构建方式，以及不同人写出的代码差异有多大。而且，没有任何软件敢说自己没有漏洞，即便这个漏洞从未被发现过。

过去那些能够几十年安静躺在系统里的漏洞，不是因为系统足够安全，而是因为寻找漏洞需要极高的专业能力、极大的耐心和精力，以及大量的时间。会的人太少，敢投入的人更少。

这种「能力稀缺」，构成了整个软件安全领域的隐性前提。AI介入之后，这个前提开始松动。

AI能以超过大多数非顶尖人类能力的方式开展工作——既可以利用它攻击漏洞，当然也能用它来堵住漏洞。

为了解决这个问题，Anthropic推出了Project Glasswing。

简单来说，这是一个利用Mythos的能力帮助全球基础设施系统寻找bug的项目。参与方包括AWS、苹果、微软、谷歌、英伟达、思科、Linux基金会等共计12家机构。

这个阵容覆盖了云计算、操作系统、芯片、浏览器、金融基础设施、网络安全和开源生态——全球数字基础设施的核心参与者几乎悉数入列。

项目的核心逻辑只有一条：让防守方率先使用这款顶级AI模型的能力。因为如果攻击方先拿到同等级的工具，窗口一旦打开就很难关闭。Anthropic承诺提供1亿美元的模型使用额度，覆盖研究预览期。

除了12家核心机构，还有超过40个维护关键软件基础设施的组织获得了访问权限，可以利用Mythos扫描自家系统和开源项目。

同时，Anthropic向Linux基金会捐赠了250万美元，向Apache软件基金会捐赠了150万美元——这两者都是软件世界的基础设施。我们现在使用的各种App、系统，基本上都以它们为底层架构。

从某种角度看，Anthropic这次算是做了一件好事：不仅推出了更强的模型，还花钱让全球信息基础设施完善自身。毕竟，如果直接裸上，对谁都没有好处。

说到这里，你可能还是感受不到Mythos到底有多强。从最新原文中找到三个具体案例，比数字更能说明问题。

第一个，OpenBSD。

这是公认安全性极高的操作系统，很多关键基础设施会运行其上，包括苹果手机iOS系统、Android系统，甚至一些企业和机构内部系统。Mythos在其中发现了一个存在了27年的漏洞——攻击者只要连上目标机器，就能让它远程崩溃。

27年！不是没人在意，而是根本没人找到。

第二个，FFmpeg。

几乎所有需要处理视频的软件都依赖它，各种视频播放软件基本上都有它的身影。有一个漏洞躲在一行写于16年前的代码里，自动化测试工具反复攻击了整整500万次，每次都没成功。但Mythos找到了。

第三个，Linux内核。

这就不用多说了，基本上可以视为整个互联网的基础设施，也最值得警惕。Mythos不仅发现了几个独立的漏洞，而是将多个漏洞串联成一条攻击链——从普通用户权限开始，一路提权，最终实现对整台机器的完全控制。

关于Linux这个案例，和前两个的性质完全不同。

发现漏洞，是分析能力。而串连漏洞，就是策略能力了。就好比很多产品经理，会画原型图、会写文档、会做数据分析，这些是单点能力；但把业务、产品、商业串联起来，就是策略能力。一个能够规划攻击路径的模型，已经不仅仅是审计工具，更接近于一个能在数字环境中主动行动的智能体。

以上三个案例，Anthropic采取的都是先发现、先报告、先修复、再披露的方式，目前均已修复。

看到这里，你就知道Mythos有多强了——就像一头暂时不敢被放出笼的猛兽，现实世界需要先做好迎接它的准备。

几个观察，或许也是接下来真正变化的开始。

第一，软件世界的安全假设正在失效。

今天习以为常的软件稳定性，并不完全来自系统设计足够好。很大程度上，它依赖的是攻击能力的稀缺。说得直白点：不是软件足够强，而是人不够强。

发现漏洞需要成本，构建利用链需要时间，大规模扫描需要资源。所以很多技术债、陈年bug、老旧系统就那样存活着，从未被认真清理过。就像做产品一样，觉得逻辑闭环了、没问题了，并不代表真的万事无忧，很可能是能力上限到了。

Mythos展现的能力，意味着漏洞从被发现到被利用的时间窗口，从过去的几个月被压缩到了几分钟。

几分钟意味着什么？意味着补丁的节奏、修复的流程，已经开始跟不上攻击的速度了。

第二，开源世界会最先感受到压力。

今天大多数现代软件，底层都压着大量开源依赖。平时看不见，一旦被打穿，就是全行业同时受影响。用大白话说：现在使用的所有软件都有开源项目作为底层，而这些项目的源代码是对所有人可见的。

未来，当模型能够持续、大规模地扫描开源项目时，开源社区维护者们面临的压力级别将完全不同。这也是为什么Anthropic要给Linux基金会和Apache基金会捐钱的原因——不是做公益，而是承认开源基础设施是AI时代整个数字世界最脆弱、也最不能倒的那层地基。他们不想被当成坏人和恶人而已。

第三，人会被弱化，AI开始与AI博弈。

过去互联网产品安全团队的价值，在于人的判断力、经验积累和对系统的深度理解。未来，这件事将换一个逻辑——比的是谁的模型更强，谁的工具接得更快，谁能把AI审计嵌入开发流程的最前端。

这不是程序员被替代的问题，而是安全行业本身的生产方式将重组。好的一面是，数千个高危漏洞可以在几周内被找出来。麻烦的是，攻击方迟早也会拥有同等级的工具。

到那个时候，软件产品的安全不再是人与人的对抗，而是模型与模型之间的攻防博弈。

这次，Anthropic不仅发布了能力，还发布了风险——可能是目前这个阶段，整个行业最需要看到的那种诚实。

所有人都在谈AI如何改变工作效率，这没问题。但Mythos也在提醒我们：AI能力的跃迁，最终会从内容世界传导到软件世界，再传导到整个数字世界的基础设施。

内容世界被改写，影响的是流量逻辑。

软件世界被改写，动的是地基。

电影《2012》里有一句台词，就作为这篇文章的结尾吧——「无论你是谁，不分种族，不分国家，明天我们都没有区别！」

来源：https://36kr.com/p/3757720918721029

其他

上一篇OPPO Find X9 Ultra哈苏大师模式原生胶片升级 下一篇厂商扎堆推Pro Max版定价超6000元直逼Ultra

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。