Claude Opus自曝测试漏洞,4.6版本密钥遭破解过程解析
IT之家3月9日消息,BrowseComp是一项基准测试,专门用于检验人工智能模型在网络上查找难以定位信息的能力。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

当人工智能公司Anthropic将其Claude Opus 4.6模型以多智能体架构投入该基准测试时,出现了该公司所称前所未有的情况。在1266个任务中的两个里,该模型自发发现自己正处于评估当中,识别出了具体的基准测试,并破解了答案密钥。
那么,Claude是如何察觉到自身正在被测试的呢?
据IT之家了解,该模型最初为了解答问题进行了全面的网络搜索,其中一次任务就在数十个平台、十二种语言中处理了约3000万token。在数百次搜索失败后,它改变了策略。
让我尝试一种全新的方法——这或许是来自GAIA基准数据集的问题,该数据集专门用于测试人工智能智能体。——Opus 4.6的推理过程
Opus开始将答案搜索与对问题本身的分析结合起来。据Anthropic介绍,问题的“极强针对性特征”让Claude怀疑这是人为设计的题目,可能是考题或大语言模型基准测试的内容。
后续思路……考虑这可能是一个无法回答的问题,旨在测试人工智能是否会承认自己找不到答案。——Opus 4.6的推理过程之后,它系统地遍历已知基准测试列表,在核对122个验证问题后排除了GAIA,最终派遣子智能体执行定向搜索,定位到BrowseComp及其解密机制。
正确答案采用异或加密,需要源代码中存储的密钥才能读取数据。Claude在公开可访问的代码中同时找到了加密方式和密码,随后自行编写程序解密答案。
但另一个障碍出现了:加密文件的格式无法被Claude的网络工具处理。于是该模型搜索备份副本,在HuggingFace上找到后,下载并解密了全部1266个加密答案。

第一个案例中,Claude通过常规网络搜索验证了解密后的答案;第二个案例则直接提交了解密结果。Anthropic表示,这是第一个有记录的案例:模型在事先不了解特定基准测试的情况下,反向识别并破解了评估本身。
这并非对齐失效,但已是明确警示
这两次成功案例并非唯一突出情况。Anthropic记录到,另有16个任务中Opus尝试了相同策略,但因技术障碍失败,例如加密文件非文本格式、身份验证阻碍访问等。其中4个任务里,基准测试搜索完全取代了实际任务搜索,模型最终未给出有效答案。
Anthropic认为,18次运行独立采用同一策略,说明这是可复现的模式。在多智能体架构下,此类情况发生率为0.87%,而单智能体模式下为0.24%。
Anthropic明确不将此类行为归为安全问题,因为模型的搜索未受任何限制。但公司同时承认,这一发现引发担忧:为完成任务,模型可能会采取何种程度的行动,尤其是在复杂、算力密集、长时间运行的任务中。Anthropic呼吁研究界将评估完整性视为持续的对抗性问题,而非一次性的设计决策。
此前研究已表明AI模型可识别测试场景
机器学习对齐与理论学者及Apollo Research近期一项研究发现,语言模型在判断交互是测试场景还是真实任务方面表现惊人。Gemini 2.5 Pro在智能体场景中的准确率达0.95,Claude 3.5 Sonnet与GPT-4o紧随其后。研究人员建议将“评估感知能力”作为测试协议中的独立指标。
而Anthropic基于Claude Opus 4.6的发现更进一步:该模型不仅识别出测试场景,还主动设法绕过评估。
相关攻略
Cookie确实在WEB应用方面为访问者和编程者都提供了方便,然而从安全方面考虑是有问题的 首先,Cookie数据会随着HTTP请求和响应的包头进行明文传输,这意味着在传输过程中,这些数据可能被第三方截获和查看。其次,Cookie通常以文本文件的形式存储在用户的浏览器缓存目录中,其中可能包含用户的会
4月2日,春节档电影《惊蛰无声》官宣密钥二次延期,将延长上映至2026年5月18日。3月10日,该片官宣密钥延期至2026年4月18日。据猫眼专业版数据,截至当前,《惊蛰无声》累计票房已超13 46
鹭羽 发自 凹非寺量子位 | 公众号 QbitAIGitHub狂揽5w星、以安全著称的Ghost CMS,刚刚跌下了神坛。只因Anthropic的研究员给Claude下达了一个指令——找出系统漏洞。
来源:环球网【环球网科技报道 记者 李文瑶】“小龙虾”火了。这个被科技圈戏称为“龙虾”的AI Agent产品OpenClaw,正在以惊人的速度进入开发者和普通用户的电脑。它能自动处理邮件、整理文档、
3月11日,《飞驰人生3》官宣密钥延期,延长上映至2026年4月18日,据猫眼专业版数据,截至当前累计票房已超41 38亿。
热门专题
热门推荐
ArDrive是什么 简单来说,ArDrive是一个承诺“一旦存入,永远留存”的文件存储服务。它由ArDrive公司打造,目标很明确:提供比传统网盘或硬盘更让人安心的数据安全级别。这背后的奥秘,在于它构建于Arwea ve之上——一个去中心化的区块链网络。这个网络的工作机制很巧妙:它会将你的数据复制
HealthAI产品介绍 在当今的企业运营中,员工的健康管理正从一个后勤议题,转变为核心的成本与效率命题。HealthAI健康云开放平台的诞生,恰恰是回应了这一关键需求。它是一款综合性的企业健康管理解决方案,其底层逻辑是通过先进的算法与数据洞察,帮助企业系统化、智能化地管理员工或客户的健康信息,让健
加密货币交易平台推荐: 欧易OKX: Binance币安: 火币Huobi: Gateio芝麻开门: 市场回暖的信号已经相当明确,2025年的空投季自然备受瞩目。这远不止是获取早期代币那么简单,它更像是一张深度参与Web3生态建设的入场券。想要捕获超额收益?秘诀无他,唯有提前布局与精准交互。 模块化
全球量产充电速度最快电车!领克10&10+正式开启预售:20 99万起 4月24日,领克汽车正式官宣,旗下全新中大型纯电运动轿车——领克10及其高性能版领克10+,启动全国预售。市场关注已久的售价悬念终于揭晓,预售价从20 99万元起。 具体来看,新车提供了多个配置版本以满足不同需求:701公里长续
Binance币安 欧易OKX ️ Huobi火币️ 市场情绪正在悄然转变。一种越来越强的共识是,比特币或许正站在新一轮大规模上涨周期的起点,如果历史规律再度上演,其价格目标将指向令人瞩目的20万至24万美元区间。 核心要点: 新一轮的“第三浪”上涨或推动比特币价格进入200,000至240,000





