游乐游手机版
首页/AI热点日报/热点详情

最新开源Claude时刻到来,智谱GLM5.2大模型与Mythos同台对比

类型:热点整理2026-06-30
近日,智谱开源模型GLM-5 2在安全漏洞检测领域表现突出,裸跑IDOR漏洞检测F1达39%,超越了ClaudeCode;在追加指令后追平ClaudeMythos。平均每发现一个安全漏洞成本仅0 17美元。目前国产模型与美国顶级模型性能差距已收窄至2 7个百分点。

本周末,智谱公司发布的最新开源模型 GLM-5.2 在网络安全领域引起了全球范围内的广泛关注。多家国际媒体跟进报道,《华尔街日报》更直言「中国重置了AI竞赛」。代码安全公司 Semgrep 的评估测试显示,GLM-5.2 在寻找安全漏洞这一关键任务上的表现,已经与 Anthropic 的 Claude Mythos 不相上下。接下来,我们将为您详细解读这一事件的核心要点、技术细节以及背后的行业趋势。

一、GLM-5.2 在安全漏洞检测中的惊人表现

Semgrep 的测试初衷并非评选最强开源模型,而是想探究:AI 查找漏洞的成绩中,模型本身的能力与外部脚手架(如 SDK、工具链)的贡献各占多少?这一结果让整个团队感到非常意外。

1. 裸跑测试:碾压其他模型与闭源产品

GLM-5.2 在没有任何额外指令或工具辅助的情况下,仅凭一个提示词(prompt)和一堆代码进行「裸跑」,在 IDOR(不安全的直接对象引用)漏洞检测 上取得了 39% 的 F1 分数。这一成绩不仅远超其他同样裸跑的开源模型,甚至 击败了搭载完整 SDK 支持、使用 Opus 4.8 的 Claude Code(后者仅 32%)

2. 什么是 IDOR 漏洞?为何它如此难检测?

IDOR 的全称是 Insecure Direct Object Reference,简单来说就是:系统暴露了内部的用户 ID 或数据库键值,却没有验证请求方是否拥有访问权限。 只需修改一下 ID,就能获取他人的数据。这类漏洞在安全领域以难以检测而著称——它并非普通的危险函数调用,而是考验模型能否发现一个「本应存在但缺失的校验机制」。目前,IDOR 在 HackerOne 漏洞类型排行榜上位列第四,是实战中最常被利用的漏洞之一。

3. 追加指令后追平 Mythos

根据《华尔街日报》的报道,GLM-5.2 在加入额外指令后,漏洞查找能力可以进一步追平 Mythos。这意味着,开源模型在最重要的安全维度上,首次与闭源顶级模型站在了同一水平线上。

4. 性价比:一个漏洞仅需 0.17 美元

GLM-5.2 在价格上极具竞争力:输出 token 价格仅为 Claude Opus 4.8 的五分之一、GPT-5.5 的七分之一。每发现一个漏洞的计算成本仅为 0.17 美元。在 Kilo Code 中运行规划任务时,GLM-5.2 获得了 9.0 分,而 Fable 5 为 9.1 分,两者几乎持平。

小提示: 如果在实际网络安全工作中部署 AI 漏洞扫描,建议优先测试 GLM-5.2 的裸跑效果,再根据预算决定是否加入定制指令——性价比优势非常明显。

5. 孤独的领跑者:与第二名差距显著

值得特别注意的是,GLM-5.2 与排名第二的开源模型之间的差距,比它和 Claude Code 之间的差距还要大 16 个百分点。这并非意味着开源模型集体追上了闭源,而是智谱独自跨越了那道门槛。

二、国产模型正在崛起:不止是智谱

7AI 的 CEO Lior Div 评价道:中国在持续缩小与美国的差距,而且这一趋势不会停止。Stanford 2026 AI Index 数据显示:美国和中国最强模型之间的综合能力差距已收窄到 2.7 个百分点

1. 智谱的持续加速:4 个月 4 个前沿模型

智谱在过去四个月里发布了四个前沿级的 coding 模型:GLM-5、5-Turbo、5.1、5.2。这一发布节奏不输任何顶级实验室。智谱创始人唐杰在 Mythos Preview 发布后曾表示:AI 查找漏洞学习的不仅仅是搜索,而是顶级黑客的直觉和方法论,并且能够 24 小时不间断运行。他判断,这本质上是一场替代黑客的革命。

2. 360 等厂商的跟进

就在 GLM-5.2 引发热议的同一周,另一家中国安全公司 360 也宣布推出自己的漏洞检测工具,同样声称能够比肩 Mythos。国产模型在网络安全这一战略维度上,正逐步形成集团优势。

常见问题

Q:GLM-5.2 是否已经全面超越 Claude Mythos?

A:并非如此。在 IDOR 漏洞检测这一特定任务上,GLM-5.2 在裸跑和相关指令加持下追平甚至局部超越了 Mythos,但在其他安全任务(如复杂逻辑漏洞、0day 发现层级)的对比数据尚未公开。Mythos 在 OpenBSD 中发现 27 年旧漏洞等成就,仍然代表了最高水平。GLM-5.2 的意义在于证明了开源模型在关键安全任务上已经具备竞争力。

Q:企业应该如何评估是否使用 GLM-5.2?

A:建议从三个维度进行评估:①任务类型(IDOR 类漏洞优先推荐);②成本预算(成本仅为闭源方案的 1/5~1/7);③安全合规(开源模型可本地部署,避免数据外泄风险)。可以先利用 Semgrep 等工具搭建裸跑测试环境来验证效果。

三、安全维度为何战略意义重大?

Mythos 曾花费两天时间、约 2 万美元的算力,挖出一个隐藏在 OpenBSD 里长达 27 年、从未被人发现的漏洞。Anthropic 研究员 Nicholas Carlini 使用一套后来被称为「Carlini Loop」的提示词驱动 Mythos 扫描代码,翻出了数百个 bug,其中 Ghost 平台的一个漏洞在几周后就被黑客在野外利用了。这套能力既能防守也能进攻,已经被现实所验证。

1. 安全圈的现实:bugmageddon 降临

安全圈有一个术语叫 bugmageddon:AI 发现漏洞的速度,已经超过了人类打补丁的速度。八年前,一个漏洞从被发现到被利用平均需要 847 天;现在这个窗口期已缩短到 一天以内

2. 市场天平正在倾斜

曾领导 Google 安全团队的 Niels Provos 判断:这种局面正把全球用户推向更便宜但同样强大的中国开源模型。差距在缩小,使用天平也在同步倾斜——本质上是市场在用实际行动,对国产模型的 AI Coding 能力投下赞成票。

3. 马斯克与唐杰的隔空对话

六月中旬,马斯克在 X 上表示,智谱最快到明年初就能在 benchmark 上追上美国顶尖模型。当时智谱创始人唐杰回了一句:「不用那么久」。现在看来,至少在查找安全漏洞这件事上,他说对了。


参考链接:

来源:https://www.aitntnews.com/newDetail.html?newId=26671

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。