首页 游戏 软件 资讯 排行榜 专题
首页
AI
Anthropic Mythos模型评测报告出炉 AI安全性能超预期

Anthropic Mythos模型评测报告出炉 AI安全性能超预期

热心网友
78
转载
2026-05-19

近日,英国AI安全研究院(AISI)发布的最新评测报告,让业界目光再次聚焦于Anthropic旗下备受瞩目的Claude Mythos模型。这款曾被公司内部评估为“能力过强”而谨慎封存的AI,在最新的网络安全基准测试中展现了惊人的进化速度,其表现甚至超越了OpenAI的GPT-5.5。

Anthropic旗下Mythos模型能力提升超出预期,AI安全机构发布最新评测报告

AISI在其官方博客中披露的测试结果显示,Claude Mythos Preview模型在发布仅一个月后,能力便实现了显著跃升。在两项关键的网络靶场测试中,它均创下了新的纪录。特别是在名为“冷却塔”的高难度靶场中,该模型实现了历史性突破,完成了此前所有模型均告失败的任务。AISI评价称,这是“首个成功完成我们第二个网络靶场全部任务的AI模型”。

这一进展意义重大。就在上个月,Anthropic才联合多家顶尖科技公司与AI实验室,组建了“Project Glasswing”网络安全测试联盟,并有限度地向合作伙伴开放了Mythos Preview的访问权限。此次第三方独立评测,为评估前沿AI的网络安全能力提供了一个客观、可信的标尺,有助于澄清外界关于AI能力是“营销炒作”还是“灾难性跃升”的极端争论。

更值得关注的是,AISI的测试揭示了一个关键趋势:AI处理复杂网络安全任务的能力,其进步速度远超行业预期。这种跃升不仅发生在不同代际的模型之间,即便在同一模型的连续版本迭代中,其演进幅度也同样惊人。这预示着整个网络安全防御与攻防演练的范式可能即将被重塑。

报告给出了一个量化指标:自2024年底以来,AI模型可有效完成的网络任务时长,大约每4.7个月就翻一番。而最新对Mythos Preview和GPT-5.5的评测表明,这两款顶尖模型的表现“均已大幅超越这一加速趋势线”。这凸显了当前大模型在代码审计、漏洞挖掘等领域的潜力正在急速释放。

当然,研究人员也指出,目前尚不能断定这是长期性的能力飞跃,还是特定模型的阶段性优势。同时,本次测试本身也存在局限。为了保持与历史测试的公平对比,AISI设定了250万Token的任务上限,但这实际上“低估了前沿模型的真实能力天花板”。因为在此限制下,模型在最复杂任务上的成功率已接近100%,使得测试难以精确衡量其性能边界。

一个合理的推论是:若解除Token限制,并配备更完善的智能体框架,这些模型的成功率可能会进一步提升,其完成任务的时间跨度甚至可能难以精确计量。AISI在内部实验中曾将Token配额提升至1亿,观察到模型性能仍有显著增长空间,且新一代模型从更高资源配额中获益的程度更大。

Q&A

Q1:Claude Mythos是什么,为什么Anthropic不公开发布它?

Claude Mythos是Anthropic公司研发的一款尖端人工智能模型,以其在复杂推理与网络安全任务方面的卓越能力而闻名。出于对AI安全性与潜在风险的审慎考虑,Anthropic评估其“能力过于强大”,因此未选择全面公开发布。目前,该公司通过“Project Glasswing”联盟,仅向经过筛选的合作伙伴提供有限的访问权限,旨在可控环境下探索其应用与边界。

Q2:AISI对Claude Mythos的最新测试发现了什么?

AISI的最新独立测试证实,Claude Mythos Preview的最新版本实现了能力突破。它不仅超越了自身前代版本,更在特定高难度网络靶场测试中,表现优于OpenAI的GPT-5.5。测试数据进一步印证,顶尖AI模型完成网络任务的有效能力正以超线性速度增长,翻倍周期已缩短至约4.7个月,而Mythos与GPT-5.5的实际表现已跑在这一加速曲线的前方。

Q3:AISI测试中250万Token上限对结果有什么影响?

设定250万Token上限主要是为了确保与过往测试数据的可比性。但研究人员明确指出,这一限制已成为评估前沿模型真实性能的瓶颈。在当前测试框架下,Mythos和GPT-5.5的成功率已触及“天花板效应”,无法充分区分其极限能力。若放宽限制并提供更复杂的任务环境,模型的表现预计将有大幅提升。AISI的内部实验已证实,在高达1亿Token的配额下,模型性能仍能获得显著增益。

来源:https://ai.zhiding.cn/2026/0518/3187374.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

奥特曼回应住宅遭袭事件并公开批评竞争对手Anthropic
AI
奥特曼回应住宅遭袭事件并公开批评竞争对手Anthropic

4月22日,《商业内幕》的一则深度报道,将OpenAI与其主要竞争对手Anthropic之间日益白热化的商业与理念竞争,再次推至舆论中心。 图注:OpenAI CEO 萨姆·奥特曼 此次风波的直接起因,是OpenAI联合创始人兼首席执行官萨姆·奥特曼近期做客播客节目《Core Memory》时的一次

热心网友
05.18
Anthropic 估值 300 亿美元超越 OpenAI 意味着什么
AI
Anthropic 估值 300 亿美元超越 OpenAI 意味着什么

2026年4月,人工智能行业迎来标志性转折点:Anthropic公司年化收入突破300亿美元大关,正式超越OpenAI的250亿美元营收。这家曾被OpenAI联合创始人视为“实验室小弟”的初创企业,仅用四年时间便完成了这场史诗级的商业逆袭。 这一里程碑事件的意义远超数字本身,它深刻揭示了一个颠覆行业

热心网友
05.18
Anthropic回应Claude AI未授权访问事件 称正在调查中
AI
Anthropic回应Claude AI未授权访问事件 称正在调查中

就在昨日,彭博社发布的一则独家报道在人工智能安全领域引发了广泛关注:Anthropic公司最新研发、具备高级网络攻击能力的Claude Mythos模型,疑似被少数未经授权的用户成功访问。消息传出后,Anthropic官方迅速作出回应,确认已启动内部调查程序,正在全面核查此次事件。 需要了解的是,这

热心网友
05.18
Anthropic回应Claude Mythos模型遭未授权访问事件
AI
Anthropic回应Claude Mythos模型遭未授权访问事件

就在Anthropic为其最新、也最具争议的AI模型Claude Mythos拉起严密警戒线的同时,一道意料之外的“侧门”被悄然打开了。 这款备受瞩目的AI模型自发布起便引发广泛关注。4月7日,Anthropic正式发布了Claude Mythos,并明确将其定位为一款“网络攻击专家”——其核心设计

热心网友
05.18
微软GitHub Copilot将改为按词元计费 继Anthropic后又一AI工具调整收费模式
AI
微软GitHub Copilot将改为按词元计费 继Anthropic后又一AI工具调整收费模式

本周,微软的一则公告在开发者社区中引发了广泛关注:GitHub Copilot Pro、Pro+ 及学生版套餐的新用户注册被暂时叫停,官方给出的理由是“为了更高效地服务现有客户”。与此同时,个人版套餐的使用额度被下调,Pro套餐中原有的Claude Opus模型也被移除。这一系列调整,显然预示着更深

热心网友
05.18

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

多平台推广的优势与核心价值解析
业界动态
多平台推广的优势与核心价值解析

在流量日益分散的今天,把鸡蛋放在同一个篮子里,风险不言而喻。多平台推广,早已不是“要不要做”的选择题,而是“如何做好”的生存题。它的核心价值,可以概括为两点:实现“流量风险对冲”,以及构建“品牌触点全覆盖”。通过在不同生态位——无论是搜索、短视频、图文还是电商——建立内容矩阵,企业不仅能有效缓冲单一

热心网友
05.19
DeepSeek知识库搭建教程 从零开始构建企业智能问答系统
业界动态
DeepSeek知识库搭建教程 从零开始构建企业智能问答系统

DeepSeek知识库的核心,是运用RAG(检索增强生成)技术,将DeepSeek强大的大语言模型推理能力,与您的私有文档资源——包括PDF文件、内部代码库、标准操作流程(SOP)等——深度融合。其最终目标是实现基于特定垂直领域数据的精准智能问答,让AI的回答不再是通用泛化,而是具备专业依据、内容详

热心网友
05.19
三大运营商入局AI付费服务 使用门槛低至99元
AI
三大运营商入局AI付费服务 使用门槛低至99元

三大运营商推出Token套餐,将大模型调用量包装为类似流量包的产品,以降低AI使用门槛。中国电信推出个人与企业多档套餐,最低月费9 9元;上海移动推出1元购40万Tokens服务;联通则提供个人与团队版套餐。运营商凭借用户渠道和支付优势,推动算力消费向大众市场普及,可能重塑AI服务消费模式。

热心网友
05.19
本地部署量化模型解决HermesAgent响应慢问题
AI
本地部署量化模型解决HermesAgent响应慢问题

HermesAgent本地运行缓慢常因未量化的大语言模型占用资源过多。可通过AWQ量化模型、llama cpp后端加载GGUF模型、配置vLLM引擎提升并发吞吐、禁用非必要工具降低上下文开销,以及调整SQLite记忆检索阈值等方案优化。这些方法能显著降低延迟,提升响应速度。

热心网友
05.19
AI治理评估工程:破解智能体监管缺失的关键路径
AI
AI治理评估工程:破解智能体监管缺失的关键路径

随着AI智能体能力的持续增强,确保其行为始终符合预设目标与安全边界,已成为行业亟待解决的核心挑战。然而,当前主流的治理方案在防止智能体“失控”或“脱轨”方面,仍面临显著的实践瓶颈。 在之前的探讨中,我们分析了主流治理思路:部署多样化的对抗性验证器,构建一个多层次的安全审查网络。该方案的核心逻辑并非限

热心网友
05.19