Anthropic开发出顶级黑客AI却不敢发布

时间：2026-06-08 15:41

几周前，Anthropic 做出了一项令整个科技行业为之震撼的举措。他们训练了一个名为 Mythos 的 AI 模型。在短短几周内，这个模型发现的安全漏洞数量，超过了大多数安全研究员整个职业生涯所能找到的总和。它成功找到了 OpenBSD 中隐藏了 27 年之久的漏洞；也发现了 FFmpeg 里

几周前，Anthropic 做出了一项令整个科技行业为之震撼的举措。

Anthropic造了个顶级黑客，但他们不敢发布

他们训练了一个名为 Mythos 的 AI 模型。在短短几周内，这个模型发现的安全漏洞数量，超过了大多数安全研究员整个职业生涯所能找到的总和。

它成功找到了 OpenBSD 中隐藏了 27 年之久的漏洞；也发现了 FFmpeg 里那个历经 500 万次自动化测试仍未暴露的隐患。

然而，他们最终决定不公开发布这一模型。

这个决定看似有违直觉，但恰恰是最为明智的选择。

世界顶级的锁匠，同时也是最危险的窃贼

Mythos 并非被刻意训练成黑客。

Anthropic 的本意是让它成为写代码的顶尖高手。但出乎意料的是，编程能力登峰造极，自动意味着破解代码的能力同样超群。

好比你把一个人培养成世界上最出色的锁匠——你从未教他撬锁，但由于他对锁具的理解极度深入，他自然知道如何打开任何一把锁。

这种能力是免费附赠的副作用。

来看一组数据。

在 SWE 基准测试中——这是业界衡量 AI 修复真实软件漏洞能力的标准——Opus 的得分为 80.8%，已经相当出色。而 Mythos 的得分达到了 93.9%。

这不是小幅提升，而是一次代际跃迁。

在网络安全基准测试中，即评估 AI 发现与利用漏洞的能力，Opus 为 66.6%，Mythos 则为 83.1%。

但数字终究只是数字，真正令人胆寒的是它在现实世界中的实际表现。

它找到了人类永远无法发现的漏洞

OpenBSD 中的那个漏洞沉寂了 27 年。27 年间，无数安全研究员审视过那段代码，却无人发现问题。Mythos 找到了它，而且这个漏洞可以远程致使任意 OpenBSD 服务器崩溃。

FFmpeg 里的漏洞更为夸张。FFmpeg 是处理视频的底层软件，几乎整个互联网的视频流都依赖它。这个漏洞躲过了 500 万次自动化测试，隐藏了整整 16 年。

此外，还有 Linux 中的几个漏洞，能让一个零权限的普通用户直接升级为管理员。

但真正可怕的并非这些单个漏洞。

真正令人不寒而栗的是，Mythos 能够将多个微小漏洞串联起来，形成一条完整的攻击链路。它能找出三四个看似无害的小问题，然后巧妙组合，变成一次足以致命的攻击。

这正是顶级人类黑客才能做到的事——就像电影里坐在老旧电脑前、用整条手臂敲键盘的那类角色。

一个两难的抉择

如今，Anthropic 手中握有一个模型：它既能拯救整个互联网，若落入恶意之手，也能将其摧毁。

试想一下，如果他们明天就公开发布 Mythos。每一个心怀不轨的人都会获得一个比多数专业安全团队更强大的工具。

这不是假设，基准测试数据已经给出了明确的答案。

而且，这不会是最后一个如此强大的模型。每一个 AI 实验室目前都在训练更优秀的编程模型。如果擅长编程自动意味着擅长黑客攻击，那么每一个正在训练的前沿模型都会变成更强的黑客——无论它们是否愿意。

一些在该领域深耕十多年的 AI 研究员坦言：如果现在有一个按钮，能阻止不受控制的超级智能、让一切重新开始，他们会毫不犹豫地按下去。

因为现在感觉就像一场竞赛，看谁能造出最强大的模型，而能力正在以指数级增长。

Mythos 今天能做到的事，小型开源模型可能只需 12 到 24 个月就能完成。精灵一旦跳出瓶子，就再也无法收回。

那该怎么办？你不能假装它不存在，也不能永远保密——总会有人造出同样强悍的东西。你更无法销毁这些知识，它迟早会现身。

这就是 Project Glasswing 的由来。

第三条路：优先赋能防御者

Anthropic 没有选择公开发布，也没有将其锁进保险柜。他们走出了第三条路：先让防御者掌握它。

他们与 AWS、苹果、谷歌、微软、英伟达、思科、CrowdStrike、摩根大通等公司展开合作。这些公司几乎构成了整个互联网基础设施的基石。

这些合作伙伴可以直接使用 Mythos 扫描自己的系统，在攻击者发现之前找到漏洞，在任何人知晓之前完成修补。

Anthropic 还向超过 40 个维护关键软件基础设施的组织开放了访问权限。他们承诺提供 1 亿美元的使用额度，并直接向开源安全组织捐赠 400 万美元。

此外，他们正在与美国政府进行讨论。

最重要的是，他们承诺在 90 天内公开分享所学的经验。

说实话，这或许是第一次有大型 AI 实验室公开表示：我们制造了一个过于强大的东西，不能发布，但这是我们制定的计划。

这开创了一个先例。其他实验室是否会跟进，将决定 AI 未来几年甚至几十年的走向。

这对你意味着什么

大多数人并非身处财富 500 强企业的安全部门。你可能只是一个普通人，使用手机、电脑，或者用 Claude Code 编写代码。

绝大多数人都是如此。

那么这件事对我们意味着什么？

你的软件将变得更安全

如果你使用手机、浏览器或任何应用程序，你的软件很快就会变得更安全。

Mythos 发现的漏洞就存在于你的操作系统、视频播放器、网络浏览器的代码之中。这些补丁已经在推送的路上了。

你不会亲眼目睹这一切发生，但某天你会收到一个软件更新。那个更新的背后，是一个 AI 找到了人类或许永远无法发现的漏洞，并将其修复。

这是第一次，AI 会直接让你的数字生活更加安全，而你不需要做任何事情。

小公司也能享有大企业的安全级别

如果你是小企业主，这一点尤为关键。

安全长期以来一直是大公司的特权。大公司雇佣红队、进行渗透测试、花费数百万美元做安全审计。小公司可能只是安装个杀毒软件，然后祈祷不出事。

Glasswing 所做的，本质上就是把财富 500 强级别的安全能力下放给所有人。

当 Mythos 在 Linux 或者你网站所用的 Web 框架中找到漏洞时，那个修复同样会抵达你这里。你会受益于同一个用于保护苹果和谷歌基础设施的 AI 扫描。

你无需付费，甚至不知道这一切正在发生，但你已被保护。

随着这项技术的成熟，这些工具最终会直接提供给小公司。想象一下，你能用那个找到 27 年老旧漏洞的同一款 AI，扫描你自己的代码库。

我们正在走向那个未来。

这是正确的选择

Anthropic 做对了，他们值得获得所有赞誉。

他们手里握着一个能赚取巨额利润的模型。如果明天发布，必将引发轰动，整个 AI 圈都会为之疯狂。

但他们放慢了脚步。他们制定了周密的部署计划，给了防御者一个先发优势。

这不是一个容易做出的决定，但它是正确的决定。

几乎与此同时，Claude Code 的创始人 Boris Churney 在推特上写道：“我们为 Mythos 的强大感到自豪，但也应该感到恐惧。我们很自豪能负责任地将它预览给网络防御者，而不是直接发布到野外。”

这番话可谓一语中的。

真正的问题是：这能成为行业标准吗

关键问题在于，这次行动是否会成为新的行业标准，还是仅仅是一个实验室的一次性事件。

因为一个令人不安的真相是：这并非一次性事件。每一代 AI 模型都会更擅长发现漏洞。指数曲线不会变平，只会越来越陡。

因此问题是：OpenAI 会这么做吗？谷歌会吗？Meta 会吗？

那些严肃对待此事、在危机到来之前就建立安全计划的实验室，将成为我们信任下一代 AI 的基石。

那些不这么做的实验室，则会成为我们所有人都担心的头条新闻。

更残酷的消息是，这是一场军备竞赛，而且可能永远不会结束。

但第一次，防御者真正获得了领先优势。这比大多数人意识到的更为重要。

写在最后

AI 的发展速度实在太快了。每天都有新的突破，每天都有新的担忧。

但 Anthropic 的这个决定为整个行业带来了希望。

并非所有 AI 公司都在盲目追求更强的能力。至少有一家公司正在说：我们造出了非常强大的东西，但我们要负责任地使用它。

这个先例至关重要。

如果其他公司跟进，如果这成为行业标准，那么我们有理由相信 AI 不会失控。

但如果只有 Anthropic 一家这么做，那么我们的担忧就不是多余的。

现在的关键在于，其他 AI 实验室会如何选择。

他们会选择快速发布以博取关注，还是会选择负责任地部署？

时间会给出答案。

但至少现在，防御者领先了一步。这一步，可能会决定未来走向。

来源：https://juejin.cn/post/7626556832145014819

Anthropic

上一篇OpenClaw实战：前端与全栈招聘岗位详细对比分析 下一篇一句话创造人工智能世界：我开源了一个项目

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。