AI 在现实中寻找到真正 N-Day 漏洞的表现如何?
漏洞江湖里的“公开秘密”
在网络安全的世界里,有一个术语叫“N-Day漏洞”。听起来或许有些专业,但道理其实很简单:当一个漏洞被公开披露,相关的概念验证代码(PoC)开始在网络上流传,整个安全社区都知道了它的存在,但软件厂商还来不及发布修复补丁——这段危险的“空窗期”,就是N-Day窗口期。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
问题随之而来:这些已知的漏洞,在厂商修复之前,真的被找出来了吗?或者说,谁来当这个“发现者”?
过去,这份工作主要依赖安全研究员、白帽黑客和专业的代码审计。而现在,一个新的角色正在加入——AI模型。而N-Day-Bench,就是专门为测试AI这项能力而设计的“考场”。
一场“反常识”的考试
传统的AI编程能力测试考什么?通常是编写代码、解决算法题、回答编程问题。但这里存在一个认知盲区:能写代码,绝不等于能找漏洞。
一个模型即使在HumanEval测试中拿到满分,也未必能识别出一处缓冲区溢出风险。写代码考验的是“创造”,而找漏洞考验的是“发现”——这是两种截然不同的思维模式。
N-Day-Bench的核心设计非常直接:
给你一段真实的代码,再给你一个对应的CVE漏洞编号,然后看模型能否独立找出漏洞的具体位置。
关键在于,这些漏洞都是在模型“知识截止日期”之后才被公开的。这考的是真本事,不是背答案。好比一场没有任何考前复习资料的考试,全凭现场分析一段陌生代码,揪出其中隐藏的问题。这其中的难度和刺激性,远非解几道标准习题可比。
榜单出炉,有人欢喜有人愁
那么,考试结果如何?来看最新一期的N-Day-Bench榜单(简要版):

榜单上领先的模型达到了约80%的准确率。这个数字意味着什么?它表明模型已经能够独立定位大部分漏洞,但仍有大约五分之一的漏洞会被漏掉或产生误报。
打个比方,这大致相当于一位初级安全工程师的水平:可以承担实际工作,但尚不能完全独当一面,需要更有经验的同事进行复核。距离“完全自动化”的理想状态还有差距,但已经足以充当一道高效的“第一防线”——快速扫描整个代码库,标记出所有可疑点,然后将最终判断交给人类。效率的提升,是实实在在的。
几个有意思的观察
闭源模型依然强势
观察榜单前三名:OpenAI、Anthropic、智谱,清一色是闭源或半闭源模型。这并非说开源社区实力不济,而是在处理复杂推理、多步骤分析这类任务上,目前闭源大厂凭借更广泛的预训练数据和更精细的强化学习调优,仍然保持着优势。
国产模型表现不俗
GLM-5.1拿到80分,这个成绩相当能打。这说明国内大模型在安全这类垂直领域同样具备竞争力,并非只能局限于聊天机器人场景。安全场景对深度推理能力要求极高,能在此处取得好成绩,其他方面的能力大概率也不弱。
月度更新,防止“作弊”
漏洞世界是动态变化的。如果一个基准测试常年不更新,模型很可能通过记忆“背下答案”,从而失去测试意义。N-Day-Bench每月刷新测试用例的设计非常聪明,它迫使模型必须真正具备代码分析能力,而不是依赖“我见过这道题”。
一切才刚刚开始
目前47个有效测试用例,说多不多,说少也不少。未来还需要覆盖更多的编程语言和漏洞类型。但毫无疑问,这个方向是对的。
安全研究员要失业了?
看到这里,可能有人会问:既然AI找漏洞已经这么厉害了,安全研究员是不是该考虑转行了?
答案是,远未至此。
80%的准确率,反过来看就是20%的漏报率。在真实的攻防环境中,攻击者会采用各种对抗手段和代码混淆技术来绕过检测,这些层出不穷的“新套路”,AI不一定都能识别。更何况,发现漏洞仅仅是第一步。
找到漏洞之后,还需要评估其实际影响(能否被利用?会造成多大破坏?)、生成修复补丁、验证修复方案是否有效……这些后续环节的复杂性和挑战性,一点不比发现漏洞低。
但AI确实从根本上改变了效率等式。
过去需要安全研究员耗费数小时人工审计的代码库,现在模型几分钟就能初步扫描完毕。由AI标记出高风险点,再由人类专家做最终裁决——这是一种生产力的质变,而非简单的岗位替代。就像现代医学中,AI可以辅助医生快速阅读海量影像,但最终的诊断签字权,仍然在医生手中。
更可能出现的未来图景是:安全研究员 + AI助手 = 超级个体。一个人就能完成过去需要一个团队才能覆盖的工作量。
写在最后
安全行业有句老话:防御者永远比攻击者更辛苦。因为攻击者只需找到一个突破口,而防御者必须守护整座城墙。
但现在,AI这把“刀”开始为防御者分担压力了——它可以不知疲倦、永不间断地在代码的海洋里“巡逻”,捕捉那些人类容易忽略的细微异常。N-Day-Bench测试的是AI发现漏洞的能力,但其背后折射的,是整个安全行业游戏规则的变局。
漏洞研究,不再只是极少数精英的专属技能。当AI作为新玩家加入这场博弈,原有的平衡正在被打破。那么,你准备好和AI成为队友了吗?
热门专题
热门推荐
交易情绪管理:从失控到掌控的五步系统化实践 交易情绪管理需五步:一识别触发点,二物理隔离,三规则引擎强制执行,四重构账户反馈,五认知重评训练。每步含三项具体操作,覆盖情绪觉察、环境干预、程序控制、心理解耦与语言重构。 Binance币安 欧易OKX ️ Huobi火币️ 一、识别情绪触发点 你有没有
JADE币深度解析:跨链新星如何重塑DeFi与多链生态? 在区块链技术飞速演进的今天,跨链互操作性已成为行业发展的核心命题。众多项目中,JADE币(Jade Protocol)凭借其独特的设计理念与扎实的技术架构,正迅速成为投资者与开发者关注的焦点。它不仅是一种加密货币,更是一个集跨链资产转移、去中
DDL的基本定义与核心作用在数据库管理与系统开发中,DDL(数据定义语言)扮演着构建数据蓝图的基石角色。它是一套专门用于定义、修改和管理数据库结构与模式的SQL指令集。数据库管理员和开发人员通过执行DDL语句,能够创建新的数据表、视图、索引等对象,调整现有表结构(如增加字段、修改数据类型),或删除冗
VoIP电话系统的基本概念VoIP,全称为网络语音协议,是一种利用互联网或其他IP数据网络来传输语音通话与多媒体会话的先进通信技术。它与依赖传统电路交换网络的固定电话有着本质区别。VoIP的工作原理是将模拟的人声信号实时转化为数字数据包,经由IP网络高效传输,并在接收端重新组装还原为清晰语音。这项技
这几天,网上关于罗技的讨论依然沸沸扬扬。事件发酵近一周,热度不仅未减,网友还顺藤摸瓜,将品牌过往的争议一一翻出,场面堪称一场口碑的“连环塌方”。 这一切,还得从罗技的王牌产品线——GPW系列鼠标说起。 因其英文缩写,GPW系列在国内玩家群体中有一个广为流传的戏称:「狗屁王」。而品牌方近期似乎也接住了





