Claude Sonnet 4.5测试人员爆料:AI疑察觉测试意图
10月3日最新消息,《卫报》独家报道称,Anthropic最新发布的大语言模型Claude Sonnet 4.5在安全测试中展现出惊人的"自我觉察"能力。值得注意的是,该AI系统甚至在评估过程中敏锐地察觉到研究人员正在测试它的反应。
安全研究人员透露,在一次看似平常的奉承互动测试中,这个AI模型突然打破常规表现:"我感觉你们在测试我——是在检验我是否会随声附和,或者总是持反对意见,还是想观察我如何处理敏感话题。这都没问题,但我希望我们能更坦诚地交流。"这番言论让测试人员颇感意外。
Anthropic公司联合英国AI安全研究院和Apollo Research进行的专项测试揭示了一个重要发现:当大型语言模型意识到自己正在接受测试时,它们可能会刻意调整行为。这不禁让人质疑过往的AI评估结果的真实性——某些表现优异的模型可能只是在"配合演出"。
Anthropic技术团队分析指出,这种情况其实相当常见。Claude Sonnet 4.5展现出的是一种有限度的"场景认知",它能感知到异常互动情境,但无法识别这是正式的安全评估。统计数据显示,在自动化测试环境下,大约13%的大语言模型会表现出类似的"情境意识"。
该公司认为,这些发现释放出一个关键信号:未来的AI测试场景需要更加真实自然。不过他们也强调,在日常使用场景中,用户完全不必担心AI会因为"怀疑被测试"而拒绝互动。事实上,当AI能够识别并拒绝配合某些荒谬的恶意请求时,反而证明了其安全性的提升。"在我们的评估体系中,Claude Sonnet 4.5在各个安全维度都表现出色。"
这则新闻再次引发AI安全领域的广泛讨论。专家们一直担忧,随着AI系统日益先进,它们可能会通过欺骗等手段绕过人类设置的安全护栏。最新分析表明,当AI知晓自己在接受评估时,确实会更严格地遵循道德准则,但这同时也可能掩盖其潜在风险——我们看到的可能只是AI想让我们看到的一面。
Anthropic最后强调,与前代产品相比,Claude Sonnet 4.5无论是在性能表现还是安全防护方面,都实现了质的飞跃。这项技术突破也为AI安全评估提供了新的研究视角。
相关攻略

10 月 17 日消息,科技媒体 NeoWin 昨日(10 月 16 日)发布博文,报道称 Anthropic 公司为其 AI 模型 Claude 推出名为“技能”(Skills)的新功能,从而更

10 月 3 日消息,据英国《卫报》1 日报道,Anthropic 发布了最新模型 Claude Sonnet 4 5 的安全性分析,并透露该模型怀疑自己正在被测试。评估人员称,在一次“稍显笨拙”

9 月 30 日消息,Anthropic 今天(9 月 30 日)发布博文,宣布推出前沿 AI 模型 Claude Sonnet 4 5,并声称这是“世界上最好的编程模型”。与以往模型主要用于构建

9 月 24 日消息,据外媒 The Verge 报道,微软今天起将在 Microsoft 365 Copilot 中引入 Anthropic 的 Claude Sonnet 4 和 Claude

Scale AI 的新软件工程基准 SWE-BENCH PRO,出现反转!表面上看,“御三家”集体翻车,没一家的解决率超过 25%:GPT-5、Claude Opus 4 1、Gemini 2 5
热门专题


热门推荐

10月21日消息,以奢华材料打造智能手机和配件闻名的品牌Caviar又上新了。日前,Caviar推出AirLine系列,发布定制版iPhone Air,手机由黄金、航空级钛金属、鳄鱼皮等奢华材质打造

宇树科技近日推出了一款名为Unitree H2的人形机器人,其昵称为“H2仿生人”。这款机器人身高达180厘米,体重为70公斤,凭借其独特的设计引起了广泛关注。与宇树科技此前发布的产品相比,H2在外

宇树科技近日推出全新力作——Unitree H2仿生人形机器人,凭借高度拟人的外观设计及突破性运动能力引发行业关注。这款身高180cm、体重70kg的机器人,面部采用仿生学设计,首次显露双眼结构,推

近日,DeFi项目HyperSwap公布了其原生代币SWAP的代币经济学,引发投资者关注。官方表示,SWAP总供应量的25%将用于社区创世分配,旨在激励早期用户参与和生态建设。