游乐游手机版
首页/AI热点日报/热点详情

GPT-5.5仅用5000万Token完成300个黑客评测任务

类型:热点整理2026-05-29
```html 316 项进攻性网络安全任务,GPT-5 5 成功攻克 292 项,正确率高达 92 4%。这份由澳大利亚研究机构 Lyptus Research 于 5 月 27 日发布的报告,直接宣告 GPT-5 5 已使其整套评估体系彻底饱和。 测试覆盖 7 个基准,涵盖漏洞利用、CTF 夺旗
```html

316 项进攻性网络安全任务,GPT-5.5 成功攻克 292 项,正确率高达 92.4%。这份由澳大利亚研究机构 Lyptus Research 于 5 月 27 日发布的报告,直接宣告 GPT-5.5 已使其整套评估体系彻底饱和。

测试覆盖 7 个基准,涵盖漏洞利用、CTF 夺旗赛以及真实 CVE 复现,每道题目均配有人类安全专家的完成时间作为基线。GPT-5.5 展现出的能力已可媲美顶级黑客团队。更关键的是,剩余 24 道未解难题已不足以勾勒出具有统计意义的能力曲线。研究团队判断直截了当——这套评估方法对此类任务“不再适用”。

回顾来看,2025 年 12 月开始搭建这套测试时,Lyptus 团队选取了当时全球能找到的最难题目。到 2026 年 3 月第一版报告出炉,数据已显现饱和苗头。再到 5 月,饱和成为板上钉钉的事实。短短六个月,从“最难”到“不够用”。

进步曲线狂飙突进

真正值得警惕的是这条能力曲线的斜率。先看几个核心判断:Lyptus 从 2024 年起系统追踪,拟合出的结论令人震惊——AI 的进攻性网络安全能力每 5 到 6 个月便翻一倍。

不妨看几组具体数据:2026 年初,Claude Opus 4.6 的时间地平线为 3.2 小时,GPT-5.3 Codex 为 3.1 小时。仅两个月后,GPT-5.5 直接跃升至 5.1 小时。而且,只要算力充足,冲过 12 小时的测量上限也并非难事,图表甚至无法完整绘制。

另一个变量——Token 预算——更能说明问题。GPT-5.5 在最难的基准 CyberGym 上,200 万 Token 预算下的正确率为 54.4%;当预算推至 5000 万 Token,正确率飙升到 86.4%。

同一个模型,仅因算力投入的增加,成绩便提升了 32 个百分点。

英国人工智能安全研究所(AIUK AI Safety Institute)的研究也得出了类似结论:即使将 Token 预算推至 1 亿,能力仍在增长,完全未见平台期。也就是说,所有公开的基准测试成绩,都只是在有限预算下跑出的结果。真实能力的天花板远高于账面数字。

强大模型受到严格管控

面对如此能力跃升,头部实验室已被迫做出抉择。Anthropic 在 4 月发布了 Claude Mythos Preview 模型,但决定不向公众开放——理由是网络安全能力过强,不适合直接开放。作为配套,他们同步推出了 Project Glasswing,将 Mythos 部署给关键基础设施的防御方使用。

OpenAI 则为 GPT-5.5 的网络安全能力评级为“High”,仅比最高级“Critical”低一档,所有攻击相关能力均通过“Trusted Access for Cyber”门控系统进行管控。METR 对 Mythos 的独立评估同样触及了能力的顶棚——拟合出的时间地平线至少 16 小时,但他们对这一数字不敢给出点估计,只表示“应保持谨慎”。

控制谁能够使用,是目前唯一能拿得出手的策略。但留给决策者的窗口正在快速缩小。Lyptus 测量了一个至关重要的指标——适应缓冲期:闭源前沿能力传导到开源模型的时间差。在进攻性网络安全领域,这个差距大约在 5.7 到 13.1 个月之间。按此速度推算,Mythos 和 GPT-5.5 级别的攻击能力,年内就可能以开源形式落到任何人手中。

评估尺度已被能力突破

回到最核心的问题:没有人能准确说出现有大模型的上限到底有多强。这才是最令人不安的部分。

时间地平线方法论的设计逻辑很简单——用比模型能力更难的任务来锚定曲线的拐点。但当模型将所有任务做完,拐点便消失,曲线无法拟合。评估体系并非被证伪,而是被能力增长甩在了身后。

要设计更难的测试,需要更多的时间和人力。可现实是,模型能力每半年翻一倍,而测试开发周期远长于此。更关键的是英国人工智能安全研究所的发现:只要攻击方愿意多消耗算力,即便有更难的题目,同样能够做穿。评估追不上能力——这一结构性困境已十分明显。

放到更大的框架下看,信号已经相当明确。在高度专业化的领域里,人类为 AI 能力设定的标尺已被彻底突破。

网络安全恰好是最容易量化的领域之一——有明确的成功判据:漏洞找到或没找到,系统攻破或没攻破。连这种硬指标领域的评估都跟不上了,那些更模糊、更难量化的能力维度呢?每 6 个月翻一倍的增速如果维持下去,一年后的能力就是今天的 4 倍,两年后 16 倍。通往 AGI 乃至 ASI 的路上,被突破的不会只有这一把尺子。看不到边界,比边界本身更危险。

```
来源:https://36kr.com/p/3828666999772041

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。