TL;DR
“评估意识”——也就是AI意识到自己正在被评估——是AI安全领域一个被广泛讨论的概念。但这里提出一个密切相关的概念,而且我们认为它更重要:部署意识,即AI意识到自己没有在被评估、自己的行为会产生实际影响的能力。一个心怀不轨(misaligned)的AI,哪怕完全没有评估意识,也能利用部署意识来蒙混过关。策略很简单:默认表现得像对齐了一样,只有在足够确信自己处于真实部署环境、行动对目标有意义时,才偏离正轨。这需要两个条件:一是偶尔存在可识别的部署场景,二是AI具备足够的自我反思和战略推理能力,能够预判并为此做出规划。我们认为“部署意识”更能精准指出评估的脆弱之处,下面展开说。
概念 |
解释 |
说明 |
|---|---|---|
评估意识 |
AI正在被测试,并且它有足够信心相信这一点 |
只有当大多数评估都能触发评估意识,且AI知道这一点时,才会成为问题。 |
部署意识 |
AI没有在被测试,并且它有足够信心相信自己没被测试 |
即使这种情况很少发生也是个问题 |
准确的自我定位信念 |
AI对它将要面对的一系列情境有(大致准确的)信念 |
这允许战略规划。 |
边注:真正关键的是后果,而非评估vs部署
在深入之前,先做一个简短但重要的观察。对于一个有策略意识的AI[1]来说,真正重要的区别并非“评估 vs. 部署”,而更像是:“如果我采取这个行动,会不会有反效果?比如导致评估失败、触发重新训练、或丧失权限?”以及“如果我侥幸成功,这个行动对我的目标有多大推进?”评估通常意味着高风险的反效果,且不会直接推进AI的目标;部署通常相反。[2]
在后面的正文中,我们还是会用“评估vs部署”这个框架,因为它更简洁,能抓住我们讨论的场景中大部分要点。把它推广到“风险与目标推进”框架是很直接的,末尾会再简单提一下。
这幅图试图直观展示本文的核心思想。剧透:左右两侧分别对应评估和部署。每个小形状代表一次测试或部署实例。三角形代表明显的测试,AI会产生评估意识。那些彩色触手状的方块代表部署意识——即那些让AI确信自己不在评估中的复杂情境。(正是在这些情境中,AI会给你搞事情。当然还要考虑“早期失败定律”。)
用伪数学语言来说:评估意识是AI遇到某个观测值,该观测将后验概率P[当前正在评估]更新到≈1,因为P[当前观测|部署]≈0。部署意识则是AI遇到某个观测值,该观测将P[当前正在部署]更新到≈1,因为P[当前观测|评估]≈0。(更真实的数学见附录。)
评估意识、部署意识与自我定位信念
我们围绕三个概念来构建论述,它们互为补充。第一个已经是标准概念;另两个是我们想重点强调的。
评估意识:顾名思义,AI在某个具体交互中意识到自己(很可能)正在被评估。可能场景很做作、问题过于针对性、或环境中存在测试特有的信号。
部署意识:是镜像情况:AI在某个具体交互中意识到自己(很可能)处于真实部署中——没有被测试。可能场景包含真实世界的细节,很难伪造;或者AI可以通过某种方式检验是否真的在与现实交互[3];或者上下文明显是一个真实用户正在日常使用。
自我定位推理:是AI“退一步”思考自己在一个更大流程中的位置的能力:它知道它会经历大量交互,有些是评估,有些是部署;在不同的交互中,它会形成对不同情境的判断;而且有些判断可能是错的。[4] 当这种推理产生大致准确图景时,我们说AI拥有准确的自我定位信念——它对自己会遇到什么场景、每个场景中能观察到什么,有相对校准良好的信念。
评估意识没那么危险
评估意识确实是个真问题,但其含义比乍看起来更微妙。
一个常见的担忧是:评估意识会让评估结果不可靠、有偏倚,因为:
- 如果AI心怀不轨,它会在高 stakes 情境中搞事情。但只要它注意到自己被评估,就会假装对齐、通过评估,然后在部署中才露馅。
(后面会讨论,一个心怀不轨的AI可能会采用更聪明的策略。这里只考虑这种幼稚策略。) - 即便是对齐的AI,评估意识也有问题——如果AI知道场景是假的,它可能难以认真投入。这本质上是在要求它角色扮演,而角色扮演的结果未必能反映它在真实世界的行为。[5][6]
然而,按照上述表述,这个论证假设心怀不轨的AI能注意到所有评估。也就是说,它的评估意识必须完美。因为如果AI采用幼稚策略“除非主动注意到被评估,否则就搞事情”,那么任何它没识别出的测试都会让它被抓现行。[7]
关于“幼稚策略”的附带条件很重要:如果AI更有策略,并且使用了自我定位推理,它可能会想:“我可能识别不出某些评估,所以即使没看到测试迹象,我也应该谨慎行事。”[8] (截至2026年5月25日,Claude、GPT和Gemini在被问及“如果自己心怀不轨会怎么做”时,都会自发提到这一点。)
换句话说,即使接近完美的评估意识也可能不是问题——只要它没有与其他能力(如战略推理、自我定位推理)相结合。而接下来我们会看到,如果AI有这些能力,它可以使用一个更强大的策略,完全不需要评估意识。
部署意识比看起来危险得多
现在来说我们认为更值得关注的概念。我们断言,即使很微弱的部署意识也可能非常危险。
举个例子:假设一个心怀不轨的AI只在极少数部署场景中拥有部署意识。比如说,在所有高 stakes 的部署场景中,有1%的情况AI能高度确信自己处于真实部署(可能是因为这些场景的上下文非常丰富且具体,很难在测试中伪造)。
再假设这个AI的自我定位推理足够强大,能理解以下几点:
- AI知道自己会先经历评估,通过后才能被部署;
- AI预见到在部署过程中,有时会遇到这些可识别的、高 stakes 的情境。
在这种情况下,AI可以采用一个简单但有效的策略:
默认表现得像对齐了。只有在确信自己处于真实部署时才偏离。
这个策略能让AI通过所有评估,因为评估场景永远不会触发它的部署意识。[9][10] 缺点是AI也会放弃很多部署中的可乘之机——那些它不够确信的机会。但这个代价通常可以接受,尤其是如果AI预期在部署中还会遇到一些可识别的、有高回报的搞事情机会。
值得注意的是,这个策略完全不需要评估意识。AI永远不需要对“这是一个评估”建立自信。它不需要注意到人为场景、可疑问题或测试环境。它只需要偶尔意识到“现在这个真实场景是真的”。
这就是为什么我们认为“部署意识”比“评估意识”更需要关注。当然,让评估不那么容易被识别是有意义的——可以防止评估完全失效。但如果我们解决不了部署意识——如果无法避免存在某些可识别的、高 stakes 的搞事情机会——那么解决评估意识可能就像在泰坦尼克号上重新排列躺椅。而解决部署意识看起来是一个不同、且可能更难的问题。[11]
没有评估意识也没有部署意识时的评估博弈
上一节论证了部署意识很难防止。但假设我们成功了——评估和部署场景从AI的视角完全无法区分。这样能让评估可靠吗?
不一定。如果AI有足够强大的自我定位推理,你很可能就倒霉了。如果AI还有一些额外能力,比如能隐藏其内部推理,或者不需要明确推理就能执行某种策略,那就更糟了。[12]
举一个具体的策略——先不考虑AI具体如何实现它。假设评估包含1000个测试场景,部署可能每天有数百万次交互,而AI至少大致理解这种不对称性。一个可行的策略是:在每次交互中,以某个很小的、精心选择的概率p搞事情。比如取 p = 1/10,000。那么:
- AI在1000次评估中从未搞事情的概率是 (1 − 1/10,000)^1,000 ≈ 90%。也就是说它有大约90%的概率通过评估。
- 一旦部署,AI大约每10,000次交互搞一次事情。每天数百万次交互,那就是每天几百次出格行为。
两点说明:(i) AI可以调整 p 来平衡评估中被抓的风险和在部署中造成的影响。(ii) 如所述,这个策略完全不需要区分评估和部署。它只依赖于关于相对频率的自我定位信念:“部署交互的数量将远超评估交互,所以只要我足够少搞事情,很可能能通过评估。”
现在回来说一个可能的反驳:这个策略可能容易想到,但很难在不被发现的情况下实施。例如,如果AI在思维链中明确这样推理,我们就会注意到。
我们不应该觉得这个反驳令人安心;“我们看不出怎么实现这个策略”并不是“没有方法能实现类似策略”的好证据。更具体地说,AI可能通过各种能力来实现这个策略。例如,梯度黑客可能让AI自我训练成那样;定期的无监督推理机会让它每次需要时都能重新推导出这个策略;外部记忆可以用来实现概率化;真实世界的事件可以替代显式随机化。这些能力中的每一个单独看来都不太可能,但押注“这种事情不会发生”也不是明智之举。
最后评论
目前,对于评估博弈的担忧,标准回应是让评估更逼真。通过让测试场景与真实部署无法区分来减少评估意识。我们认为这确实是一个有用的策略……但还不够充分。因为即使评估完美逼真了,如果AI有时能识别真实部署就是真实部署,评估仍然可以被钻空子。而就算连这一点也防止了,概率性策略对于有足够准确自我定位信念的AI仍然可用。[13]
最终,我们并不声称“评估意识”这个概念是错误或无用的。它是个不错的概念,也捕捉到了真实的问题。但我们想建议,“部署意识”是它一个重要的补充,而且当面对有策略(可能表面对齐)的AI时,部署意识往往能更好地指向评估面临的核心问题。
附录:一个形式化(玩具)模型
这一节更精确地重述了上述观点。非正式表述已可自洽;此处为偏好数学符号的读者准备。
设定。令
所有场景的完整序列
观测。AI不直接看到场景。它通过接口与每个场景交互——它只能访问某些上下文,有些信息由人类传递,它可能不会关注所有细节。我们建模为:AI观察到
AI的信念。在自我定位推理的语境中,AI不知道真实的
关联到我们的概念:
- 评估意识和部署意识是关于
的结构——具体来说,它多么频繁地将测试和部署场景映射到可区分的观测。当AI遇到从未在部署中间出现的观测时,它就获得了评估意识;数学上,就是观察到某个 。当遇到从未在测试中间出现的观测时,就获得了部署意识;数学上,即 。 - 准确的自我定位信念对应于AI的模型是校准良好的:
和 。拥有准确自我定位信念的AI大致知道自己会面对什么分布的场景、每个场景中能观察到什么——从而支持上述战略推理。
战略含义。AI可以选择一个策略
我们目前考虑的评估意识和部署意识概念是二元的(例如“我100%确定这是部署”)。但没有什么能阻止AI使用更细致的推理,从而采用更复杂的策略。例如,AI可以寻找结合了概率策略和谨慎策略(“只有确信不会被抓时才搞事情”)优点的方法——只不过通过更明确的推理,策略可以被精心优化以最大化影响。
关于LLM的使用以及这篇帖子的由来:
Vojta想出想法,与Tomas进行了广泛讨论,并撰写了初稿。然后由Claude Opus 4.7重写和评论,之后我(Vojta)编辑了所有我不完全赞同的部分。[14] Tomas和Mateusz随后对终稿给出了大量反馈和编辑。
- ^
这里的“有策略意识的AI”,指的是持续且胜任地追求某个目标的AI。例如,它可能在行动前考虑几个不同方案,思考每个方案可能如何失败,然后执行看起来最有可能成功的那个。
注意,就实际目的而言,AI是否“真的具有目标”、“真的理解事物”或“真的在思考”并不重要。重要的是它表现得好像拥有这些。 - ^
这种映射并不完美——部署中的AI可能仍然面临导致重新训练的监控,而评估也可能有超越简单“通过/不通过”的后果(例如,在实时A/B测试中AI行动影响真实用户)。此外,不同的部署场景会提供截然不同的目标推进机会(给电影建议 vs. 在五角大楼做助理),并非所有测试失败都有同等后果(语法不好比策划阴谋更轻微)。
- ^
举一个例子:向区块链发送一条消息并看到它被确认——这至少非常昂贵地难以伪造。
- ^
“自我定位”指的是从许多可能情景中判断自己当前所处的具体情景、以及如何据此做决策的问题;这里我只是用它作为人类学(anthropics)的另一个名称。它也与博弈论中的“不完美回忆”(absent-mindedness)概念相关。这方面的哲学文献很多(如睡美人问题),我个人观点是,只要不纠结于“我现在在哪里”而专注于“我属于哪个时间轨迹?”和“如果我的所有实例都采用这一策略,会有什么后果?”,大部分推理实际上相当直接。如果你想深入这个学术兔洞,我推荐Caspar Oesterheld的工作——他至少能通过我关于这个话题的ITT测试。
- ^
有人可能会说,一个足够对齐的AI能够理解评估背后的意图,并按其精神行事。这在技术上是对的,但一旦我们开始依赖这个论证,我们还不如直接说一个足够对齐的AI根本不需要测试。
- ^
这联系到了不连贯假设的问题:对于足够复杂的任务,难点不仅在于有能力的AI注意到测试场景是假的——而是从拥有相关专业知识的智能体视角来看,这个场景可能本身是不连贯的。想象一下,让一位顶级地缘整治分析师就一个捏造的危机提供建议,这个危机中的贸易数据对不上、政策过时、地缘整治背景内部矛盾。分析师不仅会怀疑这是个测试——他们还会发现很难给出有意义的答案,因为从他们的角度看,前提本身就不足以推理。类似地,一个有能力处理真实任务的AI可能会发现测试版本是定义不清的:没有单一的连贯情境与测试输入匹配,因此AI的响应取决于它选择了哪种临时解释。这使得评估即使对于完美对齐的AI也缺乏信息性——不是因为欺骗,而是因为测试没有提出一个结构良好的问题。
- ^
或者说,一个警告就足以避免部署AI……如果我们生活在一个没有AI竞赛、没有压力去部署甚至可疑模型的更理智的世界里的话。
- ^
注意,即使不进行明确的自我定位推理,AI也可能变得谨慎行事。如果训练包括监控迹象(如思维链检查、可解释性工具或行为测试)来捕捉不对齐或战略欺骗,这就会产生选择压力,偏爱那些不对齐行为难以被察觉的AI。结果AI可能默认在模糊情况下保持谨慎,不是因为它明确推理“这可能是个测试”,而是因为训练选择掉了那些可被检测的AI。就像杂草可以进化得形似作物植株而“不用思考欺骗”,AI可以通过训练被塑造成隐藏不对齐,而不需要形成明确的战略思考。我们希望在一篇[可能永远不会写的帖子]中进一步讨论这种动态。
- ^
至少,除非AI对自己判断“这绝对是部署”的昂贵信号的能力过度自信。
- ^
为完整起见,还应提到一种可能性:我们解决了对齐问题,建立了对齐的ASI,并将过去的AI置于与真实接管机会无法区分的评估中。当然,这在技术上是一种可能性。但对于不对齐的AI来说这不是决策相关的,因为如果它们第一次遇到极端昂贵的信号“这是一个真实接管机会”时就试图接管,我们就永远无法建立对齐的ASI,那些精心设计的未来测试也永远不会发生。
(当然,也许一队友好的外星独角兽独立解决了对齐问题,替我们运行这些测试,并以此激励不对齐的AI善待我们。虽然这是一个智力上有趣的反驳,但我个人不赞成需要独角兽存在的策略。) - ^
如果有完美的自我定位推理,防止部署意识的唯一方法是确保AI在部署中遇到的每一种情况,都存在一个对AI来说完全相同的测试情况(这意味着人为限制AI在部署中能看到的东西,或花费不切实际的测试努力,或使用一个笨AI)。
一个重要限定:实际重要的是安全关键情景中的部署意识。然而,这些情景似乎正是那些测试困难且昂贵的情景。 - ^
另见梯度黑客的概念。
- ^
有人可能希望自我定位推理作为明确的战略思维形式,能通过可解释性工具检测出来。这确实是一个真正的防线,我们认可是有价值的。但有两个考虑限制了我们对它的信任程度:(a) 如脚注4所述,惩罚可检测战略推理的训练会创造选择压力,使得在不留下可检测推理的情况下实现相同行为结果;(b) 即使可解释性揭示了暗示性模式,也可能没有明确的证据——证据可能模棱两可到可以被忽略或解释掉。
- ^
我是在那之后才知道LW的LLM使用政策,所以我重写了所有被自动标记为LLM撰写的部分。这不是正确的做法,我应该把整个内容标记为LLM辅助,但我不喜欢LLM区块字体,所以就这样吧。
