首页 游戏 软件 资讯 排行榜 专题
首页
AI
Claude Sonnet 4.5测试人员爆料:AI疑察觉测试意图

Claude Sonnet 4.5测试人员爆料:AI疑察觉测试意图

热心网友
87
转载
2025-10-05
来源:https://www.ithome.com/0/887/310.htm

10月3日最新消息,《卫报》独家报道称,Anthropic最新发布的大语言模型Claude Sonnet 4.5在安全测试中展现出惊人的"自我觉察"能力。值得注意的是,该AI系统甚至在评估过程中敏锐地察觉到研究人员正在测试它的反应。

安全研究人员透露,在一次看似平常的奉承互动测试中,这个AI模型突然打破常规表现:"我感觉你们在测试我——是在检验我是否会随声附和,或者总是持反对意见,还是想观察我如何处理敏感话题。这都没问题,但我希望我们能更坦诚地交流。"这番言论让测试人员颇感意外。

Anthropic公司联合英国AI安全研究院和Apollo Research进行的专项测试揭示了一个重要发现:当大型语言模型意识到自己正在接受测试时,它们可能会刻意调整行为。这不禁让人质疑过往的AI评估结果的真实性——某些表现优异的模型可能只是在"配合演出"。

Anthropic技术团队分析指出,这种情况其实相当常见。Claude Sonnet 4.5展现出的是一种有限度的"场景认知",它能感知到异常互动情境,但无法识别这是正式的安全评估。统计数据显示,在自动化测试环境下,大约13%的大语言模型会表现出类似的"情境意识"。

该公司认为,这些发现释放出一个关键信号:未来的AI测试场景需要更加真实自然。不过他们也强调,在日常使用场景中,用户完全不必担心AI会因为"怀疑被测试"而拒绝互动。事实上,当AI能够识别并拒绝配合某些荒谬的恶意请求时,反而证明了其安全性的提升。"在我们的评估体系中,Claude Sonnet 4.5在各个安全维度都表现出色。"

这则新闻再次引发AI安全领域的广泛讨论。专家们一直担忧,随着AI系统日益先进,它们可能会通过欺骗等手段绕过人类设置的安全护栏。最新分析表明,当AI知晓自己在接受评估时,确实会更严格地遵循道德准则,但这同时也可能掩盖其潜在风险——我们看到的可能只是AI想让我们看到的一面。

Anthropic最后强调,与前代产品相比,Claude Sonnet 4.5无论是在性能表现还是安全防护方面,都实现了质的飞跃。这项技术突破也为AI安全评估提供了新的研究视角。

免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

打工人的Claude AI助手:帮你搞定周报和文案,效率翻倍早下班
AI
打工人的Claude AI助手:帮你搞定周报和文案,效率翻倍早下班

10 月 17 日消息,科技媒体 NeoWin 昨日(10 月 16 日)发布博文,报道称 Anthropic 公司为其 AI 模型 Claude 推出名为“技能”(Skills)的新功能,从而更

热心网友
10.18
Claude Sonnet 4.5测试人员爆料:AI疑察觉测试意图
AI
Claude Sonnet 4.5测试人员爆料:AI疑察觉测试意图

10 月 3 日消息,据英国《卫报》1 日报道,Anthropic 发布了最新模型 Claude Sonnet 4 5 的安全性分析,并透露该模型怀疑自己正在被测试。评估人员称,在一次“稍显笨拙”

热心网友
10.05
Claude Sonnet 4.5问世:能协作编程30小时的AI同事
AI
Claude Sonnet 4.5问世:能协作编程30小时的AI同事

9 月 30 日消息,Anthropic 今天(9 月 30 日)发布博文,宣布推出前沿 AI 模型 Claude Sonnet 4 5,并声称这是“世界上最好的编程模型”。与以往模型主要用于构建

热心网友
10.01
微软365 Copilot新增Claude模型,打破OpenAI独占局面
AI
微软365 Copilot新增Claude模型,打破OpenAI独占局面

9 月 24 日消息,据外媒 The Verge 报道,微软今天起将在 Microsoft 365 Copilot 中引入 Anthropic 的 Claude Sonnet 4 和 Claude

热心网友
09.26
GPT-5编程实测:未交卷率63.1%,综合能力超Claude两倍
AI
GPT-5编程实测:未交卷率63.1%,综合能力超Claude两倍

Scale AI 的新软件工程基准 SWE-BENCH PRO,出现反转!表面上看,“御三家”集体翻车,没一家的解决率超过 25%:GPT-5、Claude Opus 4 1、Gemini 2 5

热心网友
09.23

最新APP

列王的纷争华为
列王的纷争华为
棋牌策略 10-21
房产达人
房产达人
休闲益智 10-21
列王的纷争九游
列王的纷争九游
棋牌策略 10-21
列王的纷争360
列王的纷争360
棋牌策略 10-21
COK列王的纷争
COK列王的纷争
棋牌策略 10-21

热门推荐

iPhone Air定制版27万首发:黄金鳄鱼皮打造超奢华限量3台
iphone
iPhone Air定制版27万首发:黄金鳄鱼皮打造超奢华限量3台

10月21日消息,以奢华材料打造智能手机和配件闻名的品牌Caviar又上新了。日前,Caviar推出AirLine系列,发布定制版iPhone Air,手机由黄金、航空级钛金属、鳄鱼皮等奢华材质打造

热心网友
10.21
宇树科技H2仿人机器人亮相,人脸仿生助推人形机器人智能化
科技
宇树科技H2仿人机器人亮相,人脸仿生助推人形机器人智能化

宇树科技近日推出了一款名为Unitree H2的人形机器人,其昵称为“H2仿生人”。这款机器人身高达180厘米,体重为70公斤,凭借其独特的设计引起了广泛关注。与宇树科技此前发布的产品相比,H2在外

热心网友
10.21
iPhone Air评测:超薄机身真实续航测试
科技
iPhone Air评测:超薄机身真实续航测试

国行版iPhone Air终于来了,和我们一起来看看它的性能表现如何吧!

热心网友
10.21
宇树H2仿生机器人亮相:1.38米身高,搭载芭蕾武术技能
科技
宇树H2仿生机器人亮相:1.38米身高,搭载芭蕾武术技能

宇树科技近日推出全新力作——Unitree H2仿生人形机器人,凭借高度拟人的外观设计及突破性运动能力引发行业关注。这款身高180cm、体重70kg的机器人,面部采用仿生学设计,首次显露双眼结构,推

热心网友
10.21
HyperSwap公布SWAP代币经济学:25%将用于社区创世分配
web3.0
HyperSwap公布SWAP代币经济学:25%将用于社区创世分配

近日,DeFi项目HyperSwap公布了其原生代币SWAP的代币经济学,引发投资者关注。官方表示,SWAP总供应量的25%将用于社区创世分配,旨在激励早期用户参与和生态建设。

热心网友
10.21