Claude Mythos一月内发现271个历史漏洞部分潜伏长达20年

首页

热心网友

转载

2026-05-20

最近，软件安全领域发生了一件堪称“地震级”的事件。Mozilla发布的一篇深度复盘博文，在技术圈引发了巨大震动。

核心数据令人瞠目结舌：Firefox团队借助Claude Mythos Preview，在短短一个月内修复了423个安全漏洞。这个数字是什么概念？它超过了团队此前15个月的漏洞修复总量。单月产出飙升了14倍，连一些潜藏了20年的“骨灰级”Bug都被连根拔起。

做个对比会更直观：2025年，Firefox平均每月修复的安全漏洞约为21.5个。即便在同期4月，依靠传统方法也只解决了31个。这种效率的跃升，已经不能用“提升”来形容，而是一次彻底的“降维打击”。难怪消息一出，评论区里满是行业大佬们的惊叹。

从“幻觉噩梦”到“顶级猎手”的蜕变

Mozilla工程师在博文中写下一句耐人寻味的话：“突然之间，这些bug变得非常好。”这句话背后，是AI在安全领域角色的一次根本性转变。

就在几个月前，AI生成的安全漏洞报告还是开源维护者的“噩梦”。那些报告看起来头头是道，但深究下去往往是“幻觉”（Slop），维护者需要耗费大量精力去验证一个最终被证明不存在的“发现”。

那么，是什么让局面在短时间内天翻地覆？关键原因有两个：第一，模型本身的能力出现了质的飞跃；第二，也是更重要的，工程师们驾驭模型的工程方法取得了突破性进展。

简单说，模型在飞速变强，而人类工程师也在飞速学会如何高效地使用它。当这两条增长曲线相乘，就产生了Firefox单月423个漏洞修复这种夸张的结果。

271个漏洞的深度剖析：高危占比惊人

这场效率革命始于今年2月。当时，Firefox团队开始与Anthropic合作，最初使用Claude Opus 4.6，在Firefox 148版本中修复了22个安全漏洞，算是一次小试牛刀。

真正的爆发出现在Firefox 150版本发布时。恰逢Claude Mythos Preview上线，谁也没料到，它首次大规模应用就一口气挖出了271个安全漏洞。更值得关注的是这些漏洞的严重性分布：

180个被评为“高危”（sec-high）
80个被评为“中危”（sec-moderate）
11个被评为“低危”（sec-low）

“高危”级别的漏洞意味着什么？它代表用户在日常浏览网页时就可能触发，是攻击者最梦寐以求的目标。在过去十几年里，这类漏洞往往需要通过高额悬赏，吸引外部白帽子黑客花费巨大精力才能发现，一个漏洞的赏金可达数千甚至上万美元。

如今，Mythos直接批量发现了271个。这还没完，在后续的149.0.2、150.0.1和150.0.2等版本中，它又协助修复了更多。总计4月的423个漏洞中，271个由Mythos直接发现，41个来自外部安全研究员，剩余的111个则由内部团队通过其他AI模型或模糊测试等方式找到。

Mozilla甚至公开了其中12个漏洞的详细报告，以展示其发现深度。其中一个HTML元素的漏洞在代码中隐藏了15年，另一个与XSLT相关的Bug更是存在了整整20年。这些“陈年旧账”的清理，极大地提升了浏览器的安全基线。

攻克“皇冠上的明珠”：沙箱逃逸漏洞

最让安全圈感到震撼的，是Mythos成功找到了多个“沙箱逃逸”（sandbox escape）漏洞。这是浏览器安全中最棘手、价值最高的一类漏洞。

现代浏览器会将每个网页标签放在一个独立的“沙箱”中运行，以此实现隔离。即使某个网页被恶意代码攻陷，攻击者也应该无法逃出这个沙箱去危害系统或其他标签页。而“沙箱逃逸”，就是找到方法打破这个隔离，实现“越狱”。

这类漏洞的挖掘难度极高，甚至连传统的模糊测试（Fuzzing）都很难有效覆盖。正因如此，Mozilla的“漏洞赏金计划”为沙箱逃逸漏洞开出了最高2万美元的赏金，这是其赏金体系的天花板。

Firefox安全工程师Brian Grinstead在博文中坦言：“Mythos找到的沙箱逃逸漏洞数量，已经超过了人类安全研究员的总和。”这足以说明AI在此类顶级漏洞挖掘上的压倒性优势。

Mythos的挖掘方式也极具“硬核”色彩：它会自主编写一段恶意补丁，尝试注入沙箱进程，然后用这段代码去攻击浏览器最核心、最安全的部分。整个过程不仅需要强大的代码理解能力，更需要对浏览器多进程架构的深度把握和创造性的攻击思维。

工程化杠杆：Agentic Harness系统

当然，模型强大只是成功的一半。如果无法将模型能力规模化、工程化地应用，一切仍是空谈。Firefox团队早期用GPT-4或Claude Sonnet 3.5做静态代码分析时，就饱受误报率过高之苦，根本无法投入实际生产。

转折点在于一套名为“Agentic Harness”的系统。这套系统的核心工作流逻辑清晰：

发现漏洞：给模型一段代码，让它寻找潜在的Bug。
动态验证：模型需要编写具体的测试用例，去动态验证它的假设。只有能成功复现的漏洞才会被采纳，无法复现的则自动排除，这极大降低了误报。
去重和分诊：自动与已知漏洞数据库比对，避免重复劳动。
跟踪和修复：确认后的漏洞进入正式的安全Bug生命周期管理流程。

起初，团队需要在终端手动操作，不断调整提示词（Prompt）。跑通流程后，他们开始实现并行化，在多台临时虚拟机上同时运行扫描任务，每台机器负责一个特定的文件或函数。效率由此呈指数级提升。

这套工程化框架带来了另一个巨大优势：模型的可替换性。一旦Pipeline搭建完成，更换底层模型几乎只需修改一行代码。从Opus 4.6切换到更强大的Mythos Preview，过程堪称无缝衔接。而且，每次模型升级，整条流水线的发现能力、验证精度和报告质量都会同步获得提升。正如一些安全专家所言：“真正的杠杆可能不只在模型本身，而在于驾驭模型的工程能力。”

人机协同：百人工程师团队的“消化战”

必须明确的是，AI发现漏洞只是第一步，远非终点。Brian Grinstead在博文中说得很直白：每一个被确认的Bug，都需要一名工程师编写补丁，再由另一名工程师进行严格的代码审查。AI生成的补丁只能作为参考，绝不能未经审核直接部署。

为了消化这波史无前例的漏洞洪流，Firefox动员了超过100名工程师参与其中。这支队伍涵盖了写补丁的、做代码审查的、搭建和维护管道的、进行分类的、测试修复效果的、管理发布流程的各个环节。这是一场全员上阵的“消化战”，也由此诞生了Firefox历史上最大规模的安全修复行动，以及迄今为止最安全的一个浏览器版本。

路线分野：Anthropic与OpenAI的正面对决

Firefox的423个漏洞，或许只是AI重塑网络安全格局的一个序幕。在这场关乎未来的竞赛中，两大巨头Anthropic和OpenAI已经展现出截然不同的战略路线。

先看Anthropic。今年4月初，在发布Claude Mythos Preview的同时，他们还祭出了一个名为“Project Glasswing”（玻璃翼计划）的战略项目。

Anthropic的策略带有强烈的“封闭”和“控制”色彩。他们发布了有史以来最强大的模型，却亲手将其“关”了起来。他们声称，Mythos已经在每一个主流操作系统和浏览器中发现了数千个高危漏洞，甚至包括一个潜伏了27年的OpenBSD漏洞。这种策略的核心在于严格控制顶级AI安全能力的扩散，可能优先服务于特定合作伙伴或内部研究。

再看OpenAI，其路线恰恰相反，核心是“开放”与“赋能”。在Anthropic发布Mythos仅一周后，OpenAI便火速跟进，发布了GPT-5.4-Cyber，并同步将其“网络防御者访问计划”（TAC）扩展到数千名个人防御者和数百个安全团队。就在近期，更强的GPT-5.5-Cyber已向TAC最高层级的用户开放，可用于漏洞猎杀、恶意软件分析和攻击逆向工程。