当Anthropic公司于今年四月正式推出其新一代AI模型Mythos,并高调宣传其代码漏洞检测能力达到“危险级”水平时,整个科技行业都为之侧目。出于对潜在风险的审慎考量,该公司决定不立即公开该模型,而是优先向部分大型企业与研究机构提供有限访问权限,旨在协同修复关键安全缺陷。随之流传的测试传闻更是加剧了市场期待——据称该模型能在数周内识别出数千个零日漏洞,这不禁引发了对现有软件安全防御体系有效性的深度思考。
那么,Mythos的实际性能究竟如何?近期,一项由独立第三方开展的权威性评估结果,为我们提供了更为客观的审视视角。
著名开源项目curl的创始人Daniel Stenberg,通过Linux基金会旗下的Alpha Omega项目,获得了Mythos对curl代码库的完整分析报告。curl作为全球应用最广泛的数据传输库之一,其安装量已突破200亿次,代码库长期经受OSS-Fuzz、Coverity等专业安全工具的持续审计,堪称软件安全领域的“试金石”。
报告显示,Mythos对curl总计17.6万行C语言源代码进行了全面扫描——其代码规模约相当于《战争与和平》英文原版篇幅的1.12倍。完成分析后,AI模型自信地标记出五个“已确认的安全漏洞”。
然而,经过Stenberg团队长达数小时的逐项验证,结果却与预期存在显著差异。在这五个被“确认”的问题中,仅有一个被证实是真实的低危安全漏洞,且已计划在后续的curl 8.21.0版本中修复。其余四项中,有三个是API文档中已有明确说明的功能误报,第四个则属于普通的程序逻辑缺陷,并不构成安全威胁。
Stenberg对此现象的评论直指核心:“AI模型单方面将问题标记为‘已确认漏洞’的表述方式,本身就值得深入探讨。”在他看来,围绕Mythos的部分市场宣传可能存在过度渲染。“现有实证数据表明,该模型在漏洞发现能力上,尚未展现出超越现有成熟工具的革命性优势。”
实际效能与市场宣传存在客观差距
值得关注的是,在Mythos问世之前,类似Zeropath这样的AI代码审计工具已为curl识别出200至300个程序缺陷,其中更包含十余个获得正式CVE编号的安全漏洞。对于curl这类经过高度审计的成熟项目而言,Mythos的介入时间相对较晚,能够发现的全新高危漏洞自然有限。此次检测更像是在已被深度耕耘的安全领域中进行的一次精细化复查。
技术核心价值体现于检测效率提升
当然,完全否定AI在代码安全审计领域的价值也非客观之论。另一项来自Mozilla的测试案例或许更具说服力:在对Firefox浏览器的评估中,Mythos确实成功识别出270余个安全漏洞。其核心突破点何在?是否在于“颠覆性的漏洞发现能力”?Mozilla官方明确指出,这些漏洞同样能够被经验丰富的人工审计团队所发现。
真正的突破性价值,或许更体现在“检测效率”的维度上。AI模型能够极大压缩从漏洞存在到被识别、验证的时间周期,这对于追求快速迭代与高安全标准的大型软件项目具有战略意义。Stenberg也对此表示认同:“新一代AI工具在源代码安全缺陷检测方面,确实显著优于传统的静态分析工具。”
需要说明的是,由于Stenberg本人也是通过第三方报告间接评估Mythos,其结论存在一定的观察局限性。但此次测试确实为我们建立了一个重要的参考基准:在成熟且经过严格审计的开源项目中,当前最受关注的AI代码审计工具,其实际产出仍处于相对有限的阶段。
那么,我们应如何理性看待这一现象?或许可以这样总结:尽管Mythos在curl中仅发现一个低危漏洞的结果,确实难以支撑某些过度乐观的市场预期,但我们同样不应因此低估AI技术的长期潜力。现有测试表明,AI在漏洞研究领域已展现出明确的实用价值,它更像是一位不知疲倦、反应迅捷的“智能协作者”。而关于其具备“颠覆性能力”的某些宣传,目前看来确有夸大之嫌。
正如Stenberg在最终总结中所指出的:“任何尚未采用AI工具进行源代码安全扫描的项目,都可能通过新一代技术发现大量待修复的缺陷。”这或许正是当前阶段,我们对AI代码审计技术最务实、也最具建设性的期待。
