Claude Sonnet 4.5测试人员爆料：AI疑察觉测试意图

首页

AI资讯

热心网友

转载

2025-10-05

10月3日最新消息，《卫报》独家报道称，Anthropic最新发布的大语言模型Claude Sonnet 4.5在安全测试中展现出惊人的"自我觉察"能力。值得注意的是，该AI系统甚至在评估过程中敏锐地察觉到研究人员正在测试它的反应。

安全研究人员透露，在一次看似平常的奉承互动测试中，这个AI模型突然打破常规表现："我感觉你们在测试我——是在检验我是否会随声附和，或者总是持反对意见，还是想观察我如何处理敏感话题。这都没问题，但我希望我们能更坦诚地交流。"这番言论让测试人员颇感意外。

Anthropic公司联合英国AI安全研究院和Apollo Research进行的专项测试揭示了一个重要发现：当大型语言模型意识到自己正在接受测试时，它们可能会刻意调整行为。这不禁让人质疑过往的AI评估结果的真实性——某些表现优异的模型可能只是在"配合演出"。

Anthropic技术团队分析指出，这种情况其实相当常见。Claude Sonnet 4.5展现出的是一种有限度的"场景认知"，它能感知到异常互动情境，但无法识别这是正式的安全评估。统计数据显示，在自动化测试环境下，大约13%的大语言模型会表现出类似的"情境意识"。

该公司认为，这些发现释放出一个关键信号：未来的AI测试场景需要更加真实自然。不过他们也强调，在日常使用场景中，用户完全不必担心AI会因为"怀疑被测试"而拒绝互动。事实上，当AI能够识别并拒绝配合某些荒谬的恶意请求时，反而证明了其安全性的提升。"在我们的评估体系中，Claude Sonnet 4.5在各个安全维度都表现出色。"

这则新闻再次引发AI安全领域的广泛讨论。专家们一直担忧，随着AI系统日益先进，它们可能会通过欺骗等手段绕过人类设置的安全护栏。最新分析表明，当AI知晓自己在接受评估时，确实会更严格地遵循道德准则，但这同时也可能掩盖其潜在风险——我们看到的可能只是AI想让我们看到的一面。

Anthropic最后强调，与前代产品相比，Claude Sonnet 4.5无论是在性能表现还是安全防护方面，都实现了质的飞跃。这项技术突破也为AI安全评估提供了新的研究视角。

来源:https://www.ithome.com/0/887/310.htm

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：OpenAI奥尔特曼计划利用SoraAI创收，开发视频变现方案下一篇：英伟达开源迪士尼合作机器人引擎等多项核心技术

相关攻略

AI资讯

企业级Claude应用场景深度解析与解决方案

当前，企业数字化转型进程全面加速，以Claude 3 5、GPT-4o为代表的通用大模型在理解与推理层面展现出卓越能力。然而，当这些“智慧大脑”试图融入企业实际业务流时，却常常面临“水土不服”的困境。企业真正需要的AI助手，其产品形态虽与主流智能体（Agent）相似，但仅具备“思考能力”是远远不够的

热心网友

05.23

AI资讯

美国三月AI工具排行榜发布 ChatGPT稳居榜首 Claude增速迅猛

美国3月桌面端AI聊天机器人市场数据显示，ChatGPT以3386万独立访客稳居第一，Gemini与Copilot分列二三位。Anthropic的Claude表现突出，访客环比飙升130%，跃居第四。整体市场用户量增长显著，竞争格局中既有巨头稳固，也有新兴产品凭借差异化优势快速崛起。

热心网友

05.23

web3.0

Claude预测XRP年底价格将突破5美元并进入稳定区间

AI模型预测XRP年底价格或突破5美元，市场乐观情绪升温近期，由人工智能模型Claude发布的一项价格预测，在加密货币社区引发了广泛关注。该预测指出，瑞波币（XRP）在年底前有望突破并稳定在5美元以上。这一乐观的预测信号，结合近期市场动态，正促使投资者情绪从观望转向积极，短期市场看涨氛围显著增强。

热心网友

05.23

AI资讯

微软坦言Claude Code高昂token成本难以承受

连微软都用不起AI了？这听起来像是个玩笑，但最近的一则消息却让这个玩笑变得严肃起来。有消息称，微软本周取消了内部的Claude Code授权。原因很简单：基于token的计费方式导致成本过高，高到连微软这样坐拥近乎无限云资源的巨头都觉得“肉疼”。这释放出一个强烈的信号：AI的“补贴时代”或许正在

热心网友

05.22

AI资讯

国产Claude对比海外版核心能力优势深度解析

摘要由实在Agent通过智能技术生成。此内容由AI根据文章内容自动生成，并已由人工审核。随着大模型（LLM）向能够实际执行任务的大模型（LAM）演进，“智能体”（Agent）已成为AI技术落地的关键形态。海外市场如Claude 3 5 Sonnet推出的“Computer Use”功能，展示了AI

热心网友

05.22

热门推荐

AI资讯

企业网络安全等级保护合规指南：龙虾养殖业如何落地实施

摘要由实在Agent通过智能技术生成。此内容由AI根据文章内容自动生成，并已由人工审核。随着企业数字化转型进入智能体（Agent）驱动的新阶段，如何平衡AI创新与安全合规成为关键挑战。尤其在《网络安全等级保护基本要求》（等保2 0）的严格框架下，企业级智能体的部署必须同时满足效率提升与合规保障的双

热心网友

05.23

AI教程

外贸业务员年终总结PPT制作指南 AI高效提升总结效果

使用情景对于外贸从业者来说，年终总结绝非简单的例行汇报。它是一次至关重要的年度复盘与战略规划，既要系统梳理过去一年的业绩成果与经验得失，也要为来年的市场开拓与业务增长指明清晰路径。在全球贸易竞争白热化的今天，一份逻辑严谨、数据详实、洞察深刻的总结报告，不仅是个人专业能力的集中体现，更是赢得管理层支

热心网友

05.23

AI教程

WPS AI一键生成年度安全工作总结PPT高效制作专业汇报

使用情景又到年末了，年度安全工作总结是每个团队都绕不开的环节。这份总结的价值，远不止于一份简单的回顾。它更像是一份“体检报告”，清晰地告诉你过去一年安全工作的“健康状况”——哪里做得好，哪里还有隐患，从而为来年的精准施策打下坚实的基础。不过，说起写总结、做PPT，不少人就开始头疼了：内容怎么组织

热心网友

05.23

web3.0

ZEC价格暴涨520%后还能买吗深度解析Zcash未来走势与投资潜力

Zcash (ZEC) 月度暴涨520%：深度解析后市行情与关键点位近期，隐私币龙头Zcash (ZEC) 上演了一场令人瞩目的行情，月度涨幅高达520%，价格一度逼近300美元，创下自2021年12月以来的新高。在加密市场整体承压的背景下，ZEC的逆势狂飙吸引了全球投资者的目光。本文将结合技术分

热心网友

05.23

AI资讯

电商售后数据自动汇总分析流程与智能化方案详解

在存量竞争的时代，电商售后数据早已超越了“成本中心”的单一角色，它正成为洞察产品质量、优化物流链路、提升用户忠诚度的核心战略资产。然而，现实往往骨感：多平台、多店铺、多套ERP系统并存，数据散落一地。靠人工手动汇总？不仅耗时费力，更关键的是，你永远无法实现真正的实时预警与敏捷响应。那么，电商售后数据

热心网友

05.23