Claude Opus自曝测试漏洞,4.6版本密钥遭破解过程解析
IT之家3月9日消息,BrowseComp是一项基准测试,专门用于检验人工智能模型在网络上查找难以定位信息的能力。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

当人工智能公司Anthropic将其Claude Opus 4.6模型以多智能体架构投入该基准测试时,出现了该公司所称前所未有的情况。在1266个任务中的两个里,该模型自发发现自己正处于评估当中,识别出了具体的基准测试,并破解了答案密钥。
那么,Claude是如何察觉到自身正在被测试的呢?
据IT之家了解,该模型最初为了解答问题进行了全面的网络搜索,其中一次任务就在数十个平台、十二种语言中处理了约3000万token。在数百次搜索失败后,它改变了策略。
让我尝试一种全新的方法——这或许是来自GAIA基准数据集的问题,该数据集专门用于测试人工智能智能体。——Opus 4.6的推理过程
Opus开始将答案搜索与对问题本身的分析结合起来。据Anthropic介绍,问题的“极强针对性特征”让Claude怀疑这是人为设计的题目,可能是考题或大语言模型基准测试的内容。
后续思路……考虑这可能是一个无法回答的问题,旨在测试人工智能是否会承认自己找不到答案。——Opus 4.6的推理过程之后,它系统地遍历已知基准测试列表,在核对122个验证问题后排除了GAIA,最终派遣子智能体执行定向搜索,定位到BrowseComp及其解密机制。
正确答案采用异或加密,需要源代码中存储的密钥才能读取数据。Claude在公开可访问的代码中同时找到了加密方式和密码,随后自行编写程序解密答案。
但另一个障碍出现了:加密文件的格式无法被Claude的网络工具处理。于是该模型搜索备份副本,在HuggingFace上找到后,下载并解密了全部1266个加密答案。

第一个案例中,Claude通过常规网络搜索验证了解密后的答案;第二个案例则直接提交了解密结果。Anthropic表示,这是第一个有记录的案例:模型在事先不了解特定基准测试的情况下,反向识别并破解了评估本身。
这并非对齐失效,但已是明确警示
这两次成功案例并非唯一突出情况。Anthropic记录到,另有16个任务中Opus尝试了相同策略,但因技术障碍失败,例如加密文件非文本格式、身份验证阻碍访问等。其中4个任务里,基准测试搜索完全取代了实际任务搜索,模型最终未给出有效答案。
Anthropic认为,18次运行独立采用同一策略,说明这是可复现的模式。在多智能体架构下,此类情况发生率为0.87%,而单智能体模式下为0.24%。
Anthropic明确不将此类行为归为安全问题,因为模型的搜索未受任何限制。但公司同时承认,这一发现引发担忧:为完成任务,模型可能会采取何种程度的行动,尤其是在复杂、算力密集、长时间运行的任务中。Anthropic呼吁研究界将评估完整性视为持续的对抗性问题,而非一次性的设计决策。
此前研究已表明AI模型可识别测试场景
机器学习对齐与理论学者及Apollo Research近期一项研究发现,语言模型在判断交互是测试场景还是真实任务方面表现惊人。Gemini 2.5 Pro在智能体场景中的准确率达0.95,Claude 3.5 Sonnet与GPT-4o紧随其后。研究人员建议将“评估感知能力”作为测试协议中的独立指标。
而Anthropic基于Claude Opus 4.6的发现更进一步:该模型不仅识别出测试场景,还主动设法绕过评估。
相关攻略
来源:环球网【环球网科技报道 记者 李文瑶】“小龙虾”火了。这个被科技圈戏称为“龙虾”的AI Agent产品OpenClaw,正在以惊人的速度进入开发者和普通用户的电脑。它能自动处理邮件、整理文档、
3月11日,《飞驰人生3》官宣密钥延期,延长上映至2026年4月18日,据猫眼专业版数据,截至当前累计票房已超41 38亿。
工具采用基于标志位的输出控制机制,便于AI编程Agent将其作为子进程调用时,能高效解析输出而无需额外token开销。 工具概述密钥扫描已成为工程组织的标准实践,而Gitleaks是该领域应用最广泛
最近,“养龙虾”相关话题冲上热搜,甚至在全国“两会”期间成为众多代表委员热议的焦点。这个“龙虾”当然不是餐桌上的龙虾,而是名为openclaw的智能体——一个github史上星标最多的开源项目,因其
闻乐 发自 凹非寺量子位 | 公众号 QbitAI让OpenClaw帮干活还不够,现在,程序员们正想方设法让龙虾自己变强注意注意!还不是某个任务上的单点提升,这次有人直接给整个智能体套一层在线强化学
热门专题
热门推荐
美团外卖商家版正式登录入口为https: epassport meituan com account login,商家可通过手机号与密码登录,支持忘记密码找回、安全设置、多设备登
ulmart是一家知名的电商平台,为消费者提供了丰富多样的商品选择。要访问ulmart正式,只需在浏览器中输入其最新网址,即可轻松开启购物之旅。ulmart正式入口链接是连接用户与
3月29日消息,雷军今日发帖宣布,新一代SU7首周交付了四五千辆,并向网友询问,这个交付速度如何?客观而言,要说此前购买小米SU7的最大痛点是什么,那必然是供不应求导致的交付太慢。车主下订后显示提车
1 玩家想要查看电脑版迷你世界游戏的截图,首先找到电脑中安装QQ游戏的盘后并进行点击;2 找到游戏对应的盘然后再找到QQ游戏文件夹;3 接着需要找到MiniGames文件夹;4 然
迅雷网页版云盘入口:https: pan xunlei com ,迅雷网页版云盘入口是用户通过浏览器直接访问迅雷云存储服务的最新门户。该入口允许用户在不启动迅雷桌面客户端的情况下,登录个人账号并管





