游乐游手机版
首页/业界动态/文章详情

人工智能如此强大却不敢让普通人用已发布上线

时间:2026-06-29 13:39
人类或许正在以一种超出常规认知的速度被AI超越。 不知道大家现在的状态如何,反正我已经彻底离不开AI了。每天的工作中,至少有50%是在AI辅助下完成的——而且这个比例还在持续攀升。 随着一代又一代新模型的发布,我的工作效率和质量逐步提升,每个月在Token上的开销也随之水涨船高。 昨晚看到一条消息:

人类或许正在以一种超出常规认知的速度被AI超越。

不知道大家现在的状态如何,反正我已经彻底离不开AI了。每天的工作中,至少有50%是在AI辅助下完成的——而且这个比例还在持续攀升。

随着一代又一代新模型的发布,我的工作效率和质量逐步提升,每个月在Token上的开销也随之水涨船高。

昨晚看到一条消息:Anthropic推出了一款连他们自己都不敢全面开放给所有用户的模型——因为它的能力实在太强了。

这个新模型名为「Mythos」,中文意思是「神话」。目前还是预览版,所以全称叫「Mythos Preview」。不过,它是通过一个名为「Project Glasswing」的项目形式发布的。这个项目后面会细说。

上个月,Anthropic一份内部文档意外流出,提到有一个比Opus更大、更强的模型正在开发,代号正是Mythos。随后,Anthropic将这次泄露归因为「人为失误」,也未做过多解释。

现在,Mythos算是正式亮相了。但亮相归亮相,并未公开上线——普通用户暂时无法使用。

原因很直接:Anthropic认为这个模型过于强大,在安全机制完善之前,不适合向所有人开放。

这句话值得停下来思考片刻。

通常情况下,一家AI公司发布新模型,恨不得第一时间上线抢占市场。但这次Anthropic的做法明显反常——不是不想发,而是不敢发。因为Mythos确实强得离谱。

先看几组最新公布的测试数据。

在编码能力上,Mythos与目前公开最强的Claude Opus 4.6相比差距显著,各项基准测试中,Mythos基本实现了全面碾压。

推理能力方面,在GPQA Diamond(研究生水平科学问答)测试中,结果为94.6%对91.3%,Mythos胜出。

在Humanity's Last Exam有工具和无工具测试中,同样是Mythos全面领先。

与Agent相关的计算机操作能力方面,OSWorld-Verified(自主完成电脑任务)测试中,Mythos以79.6%的成绩超过Opus 4.6的72.7%。

每一项维度,Mythos都强于Opus 4.6,有些甚至是碾压式的超越。

在某些任务上,差距已经不是小步迭代,而是大幅跃升。比如SWE-bench Multimodal,从27.1%直接跃升至59%,几乎翻了一倍。

让Anthropic不敢上线Mythos的核心原因,在于它突破软件世界安全防线的能力实在太强了。

说白了,全球所有的系统和软件都存在漏洞,而Mythos能以超过人类的水平发现并利用这些漏洞。

假设这种能力被黑客掌控,全球的操作系统和软件都将面临严重威胁——尤其是公共基础设施和国家安全领域。

Anthropic在公告中有一句话,细思极恐。

翻译过来就是:「AI模型的编码能力已经达到极高水平,在发现和利用软件漏洞方面,它们几乎可以超越除最熟练的人类之外的所有人」。

关于这句话,值得我们深入解读一下。

程序员出身的人都知道软件的构建方式,以及不同人写出的代码差异有多大。而且,没有任何软件敢说自己没有漏洞,即便这个漏洞从未被发现过。

过去那些能够几十年安静躺在系统里的漏洞,不是因为系统足够安全,而是因为寻找漏洞需要极高的专业能力、极大的耐心和精力,以及大量的时间。会的人太少,敢投入的人更少。

这种「能力稀缺」,构成了整个软件安全领域的隐性前提。AI介入之后,这个前提开始松动。

AI能以超过大多数非顶尖人类能力的方式开展工作——既可以利用它攻击漏洞,当然也能用它来堵住漏洞。

为了解决这个问题,Anthropic推出了Project Glasswing。

简单来说,这是一个利用Mythos的能力帮助全球基础设施系统寻找bug的项目。参与方包括AWS、苹果、微软、谷歌、英伟达、思科、Linux基金会等共计12家机构。

这个阵容覆盖了云计算、操作系统、芯片、浏览器、金融基础设施、网络安全和开源生态——全球数字基础设施的核心参与者几乎悉数入列。

项目的核心逻辑只有一条:让防守方率先使用这款顶级AI模型的能力。因为如果攻击方先拿到同等级的工具,窗口一旦打开就很难关闭。Anthropic承诺提供1亿美元的模型使用额度,覆盖研究预览期。

除了12家核心机构,还有超过40个维护关键软件基础设施的组织获得了访问权限,可以利用Mythos扫描自家系统和开源项目。

同时,Anthropic向Linux基金会捐赠了250万美元,向Apache软件基金会捐赠了150万美元——这两者都是软件世界的基础设施。我们现在使用的各种App、系统,基本上都以它们为底层架构。

从某种角度看,Anthropic这次算是做了一件好事:不仅推出了更强的模型,还花钱让全球信息基础设施完善自身。毕竟,如果直接裸上,对谁都没有好处。

说到这里,你可能还是感受不到Mythos到底有多强。从最新原文中找到三个具体案例,比数字更能说明问题。

第一个,OpenBSD。

这是公认安全性极高的操作系统,很多关键基础设施会运行其上,包括苹果手机iOS系统、Android系统,甚至一些企业和机构内部系统。Mythos在其中发现了一个存在了27年的漏洞——攻击者只要连上目标机器,就能让它远程崩溃。

27年!不是没人在意,而是根本没人找到。

第二个,FFmpeg。

几乎所有需要处理视频的软件都依赖它,各种视频播放软件基本上都有它的身影。有一个漏洞躲在一行写于16年前的代码里,自动化测试工具反复攻击了整整500万次,每次都没成功。但Mythos找到了。

第三个,Linux内核。

这就不用多说了,基本上可以视为整个互联网的基础设施,也最值得警惕。Mythos不仅发现了几个独立的漏洞,而是将多个漏洞串联成一条攻击链——从普通用户权限开始,一路提权,最终实现对整台机器的完全控制。

关于Linux这个案例,和前两个的性质完全不同。

发现漏洞,是分析能力。而串连漏洞,就是策略能力了。就好比很多产品经理,会画原型图、会写文档、会做数据分析,这些是单点能力;但把业务、产品、商业串联起来,就是策略能力。一个能够规划攻击路径的模型,已经不仅仅是审计工具,更接近于一个能在数字环境中主动行动的智能体。

以上三个案例,Anthropic采取的都是先发现、先报告、先修复、再披露的方式,目前均已修复。

看到这里,你就知道Mythos有多强了——就像一头暂时不敢被放出笼的猛兽,现实世界需要先做好迎接它的准备。

几个观察,或许也是接下来真正变化的开始。

第一,软件世界的安全假设正在失效。

今天习以为常的软件稳定性,并不完全来自系统设计足够好。很大程度上,它依赖的是攻击能力的稀缺。说得直白点:不是软件足够强,而是人不够强。

发现漏洞需要成本,构建利用链需要时间,大规模扫描需要资源。所以很多技术债、陈年bug、老旧系统就那样存活着,从未被认真清理过。就像做产品一样,觉得逻辑闭环了、没问题了,并不代表真的万事无忧,很可能是能力上限到了。

Mythos展现的能力,意味着漏洞从被发现到被利用的时间窗口,从过去的几个月被压缩到了几分钟。

几分钟意味着什么?意味着补丁的节奏、修复的流程,已经开始跟不上攻击的速度了。

第二,开源世界会最先感受到压力。

今天大多数现代软件,底层都压着大量开源依赖。平时看不见,一旦被打穿,就是全行业同时受影响。用大白话说:现在使用的所有软件都有开源项目作为底层,而这些项目的源代码是对所有人可见的。

未来,当模型能够持续、大规模地扫描开源项目时,开源社区维护者们面临的压力级别将完全不同。这也是为什么Anthropic要给Linux基金会和Apache基金会捐钱的原因——不是做公益,而是承认开源基础设施是AI时代整个数字世界最脆弱、也最不能倒的那层地基。他们不想被当成坏人和恶人而已。

第三,人会被弱化,AI开始与AI博弈。

过去互联网产品安全团队的价值,在于人的判断力、经验积累和对系统的深度理解。未来,这件事将换一个逻辑——比的是谁的模型更强,谁的工具接得更快,谁能把AI审计嵌入开发流程的最前端。

这不是程序员被替代的问题,而是安全行业本身的生产方式将重组。好的一面是,数千个高危漏洞可以在几周内被找出来。麻烦的是,攻击方迟早也会拥有同等级的工具。

到那个时候,软件产品的安全不再是人与人的对抗,而是模型与模型之间的攻防博弈。

这次,Anthropic不仅发布了能力,还发布了风险——可能是目前这个阶段,整个行业最需要看到的那种诚实。

所有人都在谈AI如何改变工作效率,这没问题。但Mythos也在提醒我们:AI能力的跃迁,最终会从内容世界传导到软件世界,再传导到整个数字世界的基础设施。

内容世界被改写,影响的是流量逻辑。

软件世界被改写,动的是地基。

电影《2012》里有一句台词,就作为这篇文章的结尾吧——「无论你是谁,不分种族,不分国家,明天我们都没有区别!」

来源:https://36kr.com/p/3757720918721029
上一篇OPPO Find X9 Ultra哈苏大师模式原生胶片升级 下一篇厂商扎堆推Pro Max版定价超6000元直逼Ultra
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
长安汽车明年一季度发布首款车载人形机器人小安
业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略,采用“1+N+X”布局,联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm,体重69kg,移动速度0 8m s,具备40个自由度,续航超2小时。预计明年一季度发布首款车载组件机器人,已在广州车展展示。

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影
业界动态 · 2026-06-29

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影

3月25日,光通信领域迎来又一个里程碑:中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司,成功实现了2 5Pb s 24芯光纤超大容量实时光传输,再次刷新了世界纪录。 这一研究成果不仅入选国际顶级光通信会议OFC(2026)并荣获“高分论文”称号,还受国际权威SCI

美国调查18万辆特斯拉Model3车门应急释放装置易找性
业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查,焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿,不意味着立即召回,但可能引发后续监管措施。

doc个人图书馆停服 创始人称无偿转让失败
业界动态 · 2026-06-29

doc个人图书馆停服 创始人称无偿转让失败

运营长达20年,累计服务8000万用户的360doc个人图书馆,最终还是迎来了谢幕时刻。2026年5月1日,这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失,而是始终未能寻得一位能够安全接管的合适人选。 创始人蔡智在告别信中坦言,近两个月来,他一直在尝试将360doc无偿转

年Q1随身WiFi实测安全靠谱高性价比机型推荐
业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月,艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证,紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后,折射出一个清晰的市场趋势:移动办公、户外出行、宿舍上网等场景的需求正在快速增长,随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿