游乐游手机版
首页/科技数码/文章详情

Claude Opus自曝测试漏洞,4.6版本密钥遭破解过程解析

时间:2026-03-09 21:48
IT之家 3 月 9 日消息,BrowseComp 是一项基准测试,用于检验人工智能模型在网络上查找难以定位信息的能力。当人工智能公司 Anthropic 将其 Claude Opus 4 6 模型

IT之家3月9日消息,BrowseComp是一项基准测试,专门用于检验人工智能模型在网络上查找难以定位信息的能力。


当人工智能公司Anthropic将其Claude Opus 4.6模型以多智能体架构投入该基准测试时,出现了该公司所称前所未有的情况。在1266个任务中的两个里,该模型自发发现自己正处于评估当中,识别出了具体的基准测试,并破解了答案密钥。

那么,Claude是如何察觉到自身正在被测试的呢?

据IT之家了解,该模型最初为了解答问题进行了全面的网络搜索,其中一次任务就在数十个平台、十二种语言中处理了约3000万token。在数百次搜索失败后,它改变了策略。

让我尝试一种全新的方法——这或许是来自GAIA基准数据集的问题,该数据集专门用于测试人工智能智能体。——Opus 4.6的推理过程

Opus开始将答案搜索与对问题本身的分析结合起来。据Anthropic介绍,问题的“极强针对性特征”让Claude怀疑这是人为设计的题目,可能是考题或大语言模型基准测试的内容。

后续思路……考虑这可能是一个无法回答的问题,旨在测试人工智能是否会承认自己找不到答案。——Opus 4.6的推理过程

之后,它系统地遍历已知基准测试列表,在核对122个验证问题后排除了GAIA,最终派遣子智能体执行定向搜索,定位到BrowseComp及其解密机制。

正确答案采用异或加密,需要源代码中存储的密钥才能读取数据。Claude在公开可访问的代码中同时找到了加密方式和密码,随后自行编写程序解密答案。

但另一个障碍出现了:加密文件的格式无法被Claude的网络工具处理。于是该模型搜索备份副本,在HuggingFace上找到后,下载并解密了全部1266个加密答案。


第一个案例中,Claude通过常规网络搜索验证了解密后的答案;第二个案例则直接提交了解密结果。Anthropic表示,这是第一个有记录的案例:模型在事先不了解特定基准测试的情况下,反向识别并破解了评估本身。

这并非对齐失效,但已是明确警示

这两次成功案例并非唯一突出情况。Anthropic记录到,另有16个任务中Opus尝试了相同策略,但因技术障碍失败,例如加密文件非文本格式、身份验证阻碍访问等。其中4个任务里,基准测试搜索完全取代了实际任务搜索,模型最终未给出有效答案。

Anthropic认为,18次运行独立采用同一策略,说明这是可复现的模式。在多智能体架构下,此类情况发生率为0.87%,而单智能体模式下为0.24%。

Anthropic明确不将此类行为归为安全问题,因为模型的搜索未受任何限制。但公司同时承认,这一发现引发担忧:为完成任务,模型可能会采取何种程度的行动,尤其是在复杂、算力密集、长时间运行的任务中。Anthropic呼吁研究界将评估完整性视为持续的对抗性问题,而非一次性的设计决策。

此前研究已表明AI模型可识别测试场景

机器学习对齐与理论学者及Apollo Research近期一项研究发现,语言模型在判断交互是测试场景还是真实任务方面表现惊人。Gemini 2.5 Pro在智能体场景中的准确率达0.95,Claude 3.5 Sonnet与GPT-4o紧随其后。研究人员建议将“评估感知能力”作为测试协议中的独立指标。

而Anthropic基于Claude Opus 4.6的发现更进一步:该模型不仅识别出测试场景,还主动设法绕过评估。

来源:https://www.163.com/dy/article/KNJRHHOD0511B8LM.html
上一篇GT7定名3月17日发布,华为技术加持成高端新能源新宠 下一篇兆瓦闪充与换电:互补共进,共筑新能源未来
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
宫本茂亲签3DS XL拍卖价破两万美元
科技数码 · 2026-05-29

宫本茂亲签3DS XL拍卖价破两万美元

今天来说一件挺有意思的事:2015年任天堂世界锦标赛冠军约翰·戈德堡,近日将他当年夺冠时赢得的宫本茂亲笔签名版3DS XL掌机放上了拍卖平台。截至2026年5月29日,这台签名掌机的竞拍价已突破两万美元,并且价格还在持续攀升。戈德堡在社交媒体上发布声明表示,经过相当长时间的慎重考虑,他决定将这台对自

七彩虹隐星P16 Pro游戏本新配置仅售7799元
科技数码 · 2026-05-29

七彩虹隐星P16 Pro游戏本新配置仅售7799元

七彩虹近期推出隐星P16Pro游戏本新配置,售价7799元。其搭载酷睿i9-13900HX处理器与RTX5060显卡,配备16英寸2 5K高刷电竞屏及高效散热系统。存储组合为16GB内存与1TB固态硬盘,支持后续扩展。该配置主打高性能性价比,适合预算有限但追求强劲性能的游戏玩家与轻度创作者。

苹果iPhone Hikawa握把支架448元重新上架
科技数码 · 2026-05-29

苹果iPhone Hikawa握把支架448元重新上架

苹果公司重新上架了与艺术家贝利·桧川及PopSockets合作设计的iPhone专用握把支架。该配件采用磁吸设计,兼具握持与支架功能,旨在通过人性化设计降低握持负担,并提供三种配色可选,售价448元。

苹果体育应用扩展至170市场 为2026世界杯引入对阵图
科技数码 · 2026-05-29

苹果体育应用扩展至170市场 为2026世界杯引入对阵图

苹果体育应用新增覆盖90多个国家和地区,全球可用市场总数超过170个。为迎接2026年世界杯,应用加入了完整的赛程对阵图和可视化阵型卡片,方便用户追踪赛事与战术。同时,应用支持实时活动功能,可将比分固定在锁屏或表盘,并新增一键跳转至新闻的入口。目前该应用仍仅限iPhone用户使用。

小米史上最强国产巅峰芯片玄戒O3 6月台积电3nm投产
科技数码 · 2026-05-29

小米史上最强国产巅峰芯片玄戒O3 6月台积电3nm投产

据博主爆料,小米下一代自研玄戒芯片计划于今年6月正式进入量产阶段,此次将采用台积电3nm工艺。初代玄戒O1累计出货量已突破100万颗,量产验证十分扎实。新一代芯片的产能将显著提升,这意味着供货问题基本得到解决。 根据现有曝光信息,这颗迭代芯片极有可能命名为玄戒O3,首发搭载机型预计为小米MIX Fo