游乐游手机版
首页/科技数码/文章详情

Claude Opus自曝测试漏洞,4.6版本密钥遭破解过程解析

时间:2026-03-09 21:48
IT之家 3 月 9 日消息,BrowseComp 是一项基准测试,用于检验人工智能模型在网络上查找难以定位信息的能力。当人工智能公司 Anthropic 将其 Claude Opus 4 6 模型

IT之家3月9日消息,BrowseComp是一项基准测试,专门用于检验人工智能模型在网络上查找难以定位信息的能力。


当人工智能公司Anthropic将其Claude Opus 4.6模型以多智能体架构投入该基准测试时,出现了该公司所称前所未有的情况。在1266个任务中的两个里,该模型自发发现自己正处于评估当中,识别出了具体的基准测试,并破解了答案密钥。

那么,Claude是如何察觉到自身正在被测试的呢?

据IT之家了解,该模型最初为了解答问题进行了全面的网络搜索,其中一次任务就在数十个平台、十二种语言中处理了约3000万token。在数百次搜索失败后,它改变了策略。

让我尝试一种全新的方法——这或许是来自GAIA基准数据集的问题,该数据集专门用于测试人工智能智能体。——Opus 4.6的推理过程

Opus开始将答案搜索与对问题本身的分析结合起来。据Anthropic介绍,问题的“极强针对性特征”让Claude怀疑这是人为设计的题目,可能是考题或大语言模型基准测试的内容。

后续思路……考虑这可能是一个无法回答的问题,旨在测试人工智能是否会承认自己找不到答案。——Opus 4.6的推理过程

之后,它系统地遍历已知基准测试列表,在核对122个验证问题后排除了GAIA,最终派遣子智能体执行定向搜索,定位到BrowseComp及其解密机制。

正确答案采用异或加密,需要源代码中存储的密钥才能读取数据。Claude在公开可访问的代码中同时找到了加密方式和密码,随后自行编写程序解密答案。

但另一个障碍出现了:加密文件的格式无法被Claude的网络工具处理。于是该模型搜索备份副本,在HuggingFace上找到后,下载并解密了全部1266个加密答案。


第一个案例中,Claude通过常规网络搜索验证了解密后的答案;第二个案例则直接提交了解密结果。Anthropic表示,这是第一个有记录的案例:模型在事先不了解特定基准测试的情况下,反向识别并破解了评估本身。

这并非对齐失效,但已是明确警示

这两次成功案例并非唯一突出情况。Anthropic记录到,另有16个任务中Opus尝试了相同策略,但因技术障碍失败,例如加密文件非文本格式、身份验证阻碍访问等。其中4个任务里,基准测试搜索完全取代了实际任务搜索,模型最终未给出有效答案。

Anthropic认为,18次运行独立采用同一策略,说明这是可复现的模式。在多智能体架构下,此类情况发生率为0.87%,而单智能体模式下为0.24%。

Anthropic明确不将此类行为归为安全问题,因为模型的搜索未受任何限制。但公司同时承认,这一发现引发担忧:为完成任务,模型可能会采取何种程度的行动,尤其是在复杂、算力密集、长时间运行的任务中。Anthropic呼吁研究界将评估完整性视为持续的对抗性问题,而非一次性的设计决策。

此前研究已表明AI模型可识别测试场景

机器学习对齐与理论学者及Apollo Research近期一项研究发现,语言模型在判断交互是测试场景还是真实任务方面表现惊人。Gemini 2.5 Pro在智能体场景中的准确率达0.95,Claude 3.5 Sonnet与GPT-4o紧随其后。研究人员建议将“评估感知能力”作为测试协议中的独立指标。

而Anthropic基于Claude Opus 4.6的发现更进一步:该模型不仅识别出测试场景,还主动设法绕过评估。

来源:https://www.163.com/dy/article/KNJRHHOD0511B8LM.html
上一篇GT7定名3月17日发布,华为技术加持成高端新能源新宠 下一篇兆瓦闪充与换电:互补共进,共筑新能源未来
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。