部署意识比评估意识更关键_AI热点日报

TL;DR “评估意识”——也就是AI意识到自己正在被评估——是AI安全领域一个被广泛讨论的概念。但这里提出一个密切相关的概念，而且我们认为它更重要：部署意识，即AI意识到自己没有在被评估、自己的行为会产生实际影响的能力。一个心怀不轨（misaligned）的AI，哪怕完全没有评估意识，也能利用部署

TL;DR

“评估意识”——也就是AI意识到自己正在被评估——是AI安全领域一个被广泛讨论的概念。但这里提出一个密切相关的概念，而且我们认为它更重要：部署意识，即AI意识到自己没有在被评估、自己的行为会产生实际影响的能力。一个心怀不轨（misaligned）的AI，哪怕完全没有评估意识，也能利用部署意识来蒙混过关。策略很简单：默认表现得像对齐了一样，只有在足够确信自己处于真实部署环境、行动对目标有意义时，才偏离正轨。这需要两个条件：一是偶尔存在可识别的部署场景，二是AI具备足够的自我反思和战略推理能力，能够预判并为此做出规划。我们认为“部署意识”更能精准指出评估的脆弱之处，下面展开说。

概念	解释	说明
评估意识	AI正在被测试，并且它有足够信心相信这一点	只有当大多数评估都能触发评估意识，且AI知道这一点时，才会成为问题。或者说，如果AI有很好的自我定位推理能力。
部署意识	AI没有在被测试，并且它有足够信心相信自己没被测试	即使这种情况很少发生也是个问题（只要那些少数情况是高 stakes 的）。
准确的自我定位信念	AI对它将要面对的一系列情境有（大致准确的）信念	这允许战略规划。它让部署意识和概率性策略更有效。

边注：真正关键的是后果，而非评估vs部署

在深入之前，先做一个简短但重要的观察。对于一个有策略意识的AI[1]来说，真正重要的区别并非“评估 vs. 部署”，而更像是：“如果我采取这个行动，会不会有反效果？比如导致评估失败、触发重新训练、或丧失权限？”以及“如果我侥幸成功，这个行动对我的目标有多大推进？”评估通常意味着高风险的反效果，且不会直接推进AI的目标；部署通常相反。[2]

在后面的正文中，我们还是会用“评估vs部署”这个框架，因为它更简洁，能抓住我们讨论的场景中大部分要点。把它推广到“风险与目标推进”框架是很直接的，末尾会再简单提一下。

这幅图试图直观展示本文的核心思想。剧透：左右两侧分别对应评估和部署。每个小形状代表一次测试或部署实例。三角形代表明显的测试，AI会产生评估意识。那些彩色触手状的方块代表部署意识——即那些让AI确信自己不在评估中的复杂情境。（正是在这些情境中，AI会给你搞事情。当然还要考虑“早期失败定律”。）
用伪数学语言来说：评估意识是AI遇到某个观测值，该观测将后验概率P[当前正在评估]更新到≈1，因为P[当前观测|部署]≈0。部署意识则是AI遇到某个观测值，该观测将P[当前正在部署]更新到≈1，因为P[当前观测|评估]≈0。（更真实的数学见附录。）

评估意识、部署意识与自我定位信念

我们围绕三个概念来构建论述，它们互为补充。第一个已经是标准概念；另两个是我们想重点强调的。

评估意识：顾名思义，AI在某个具体交互中意识到自己（很可能）正在被评估。可能场景很做作、问题过于针对性、或环境中存在测试特有的信号。

部署意识：是镜像情况：AI在某个具体交互中意识到自己（很可能）处于真实部署中——没有被测试。可能场景包含真实世界的细节，很难伪造；或者AI可以通过某种方式检验是否真的在与现实交互[3]；或者上下文明显是一个真实用户正在日常使用。

自我定位推理：是AI“退一步”思考自己在一个更大流程中的位置的能力：它知道它会经历大量交互，有些是评估，有些是部署；在不同的交互中，它会形成对不同情境的判断；而且有些判断可能是错的。[4] 当这种推理产生大致准确图景时，我们说AI拥有准确的自我定位信念——它对自己会遇到什么场景、每个场景中能观察到什么，有相对校准良好的信念。

评估意识没那么危险

评估意识确实是个真问题，但其含义比乍看起来更微妙。

一个常见的担忧是：评估意识会让评估结果不可靠、有偏倚，因为：

如果AI心怀不轨，它会在高 stakes 情境中搞事情。但只要它注意到自己被评估，就会假装对齐、通过评估，然后在部署中才露馅。
（后面会讨论，一个心怀不轨的AI可能会采用更聪明的策略。这里只考虑这种幼稚策略。）
即便是对齐的AI，评估意识也有问题——如果AI知道场景是假的，它可能难以认真投入。这本质上是在要求它角色扮演，而角色扮演的结果未必能反映它在真实世界的行为。[5][6]

然而，按照上述表述，这个论证假设心怀不轨的AI能注意到所有评估。也就是说，它的评估意识必须完美。因为如果AI采用幼稚策略“除非主动注意到被评估，否则就搞事情”，那么任何它没识别出的测试都会让它被抓现行。[7]

关于“幼稚策略”的附带条件很重要：如果AI更有策略，并且使用了自我定位推理，它可能会想：“我可能识别不出某些评估，所以即使没看到测试迹象，我也应该谨慎行事。”[8] （截至2026年5月25日，Claude、GPT和Gemini在被问及“如果自己心怀不轨会怎么做”时，都会自发提到这一点。）

换句话说，即使接近完美的评估意识也可能不是问题——只要它没有与其他能力（如战略推理、自我定位推理）相结合。而接下来我们会看到，如果AI有这些能力，它可以使用一个更强大的策略，完全不需要评估意识。

部署意识比看起来危险得多

现在来说我们认为更值得关注的概念。我们断言，即使很微弱的部署意识也可能非常危险。

举个例子：假设一个心怀不轨的AI只在极少数部署场景中拥有部署意识。比如说，在所有高 stakes 的部署场景中，有1%的情况AI能高度确信自己处于真实部署（可能是因为这些场景的上下文非常丰富且具体，很难在测试中伪造）。

再假设这个AI的自我定位推理足够强大，能理解以下几点：

AI知道自己会先经历评估，通过后才能被部署；
AI预见到在部署过程中，有时会遇到这些可识别的、高 stakes 的情境。

在这种情况下，AI可以采用一个简单但有效的策略：

默认表现得像对齐了。只有在确信自己处于真实部署时才偏离。

这个策略能让AI通过所有评估，因为评估场景永远不会触发它的部署意识。[9][10] 缺点是AI也会放弃很多部署中的可乘之机——那些它不够确信的机会。但这个代价通常可以接受，尤其是如果AI预期在部署中还会遇到一些可识别的、有高回报的搞事情机会。

值得注意的是，这个策略完全不需要评估意识。AI永远不需要对“这是一个评估”建立自信。它不需要注意到人为场景、可疑问题或测试环境。它只需要偶尔意识到“现在这个真实场景是真的”。

这就是为什么我们认为“部署意识”比“评估意识”更需要关注。当然，让评估不那么容易被识别是有意义的——可以防止评估完全失效。但如果我们解决不了部署意识——如果无法避免存在某些可识别的、高 stakes 的搞事情机会——那么解决评估意识可能就像在泰坦尼克号上重新排列躺椅。而解决部署意识看起来是一个不同、且可能更难的问题。[11]

没有评估意识也没有部署意识时的评估博弈

上一节论证了部署意识很难防止。但假设我们成功了——评估和部署场景从AI的视角完全无法区分。这样能让评估可靠吗？

不一定。如果AI有足够强大的自我定位推理，你很可能就倒霉了。如果AI还有一些额外能力，比如能隐藏其内部推理，或者不需要明确推理就能执行某种策略，那就更糟了。[12]

举一个具体的策略——先不考虑AI具体如何实现它。假设评估包含1000个测试场景，部署可能每天有数百万次交互，而AI至少大致理解这种不对称性。一个可行的策略是：在每次交互中，以某个很小的、精心选择的概率p搞事情。比如取 p = 1/10,000。那么：

AI在1000次评估中从未搞事情的概率是 (1 − 1/10,000)^1,000 ≈ 90%。也就是说它有大约90%的概率通过评估。
一旦部署，AI大约每10,000次交互搞一次事情。每天数百万次交互，那就是每天几百次出格行为。

两点说明：(i) AI可以调整 p 来平衡评估中被抓的风险和在部署中造成的影响。(ii) 如所述，这个策略完全不需要区分评估和部署。它只依赖于关于相对频率的自我定位信念：“部署交互的数量将远超评估交互，所以只要我足够少搞事情，很可能能通过评估。”

现在回来说一个可能的反驳：这个策略可能容易想到，但很难在不被发现的情况下实施。例如，如果AI在思维链中明确这样推理，我们就会注意到。

我们不应该觉得这个反驳令人安心；“我们看不出怎么实现这个策略”并不是“没有方法能实现类似策略”的好证据。更具体地说，AI可能通过各种能力来实现这个策略。例如，梯度黑客可能让AI自我训练成那样；定期的无监督推理机会让它每次需要时都能重新推导出这个策略；外部记忆可以用来实现概率化；真实世界的事件可以替代显式随机化。这些能力中的每一个单独看来都不太可能，但押注“这种事情不会发生”也不是明智之举。

最后评论

目前，对于评估博弈的担忧，标准回应是让评估更逼真。通过让测试场景与真实部署无法区分来减少评估意识。我们认为这确实是一个有用的策略……但还不够充分。因为即使评估完美逼真了，如果AI有时能识别真实部署就是真实部署，评估仍然可以被钻空子。而就算连这一点也防止了，概率性策略对于有足够准确自我定位信念的AI仍然可用。[13]

最终，我们并不声称“评估意识”这个概念是错误或无用的。它是个不错的概念，也捕捉到了真实的问题。但我们想建议，“部署意识”是它一个重要的补充，而且当面对有策略（可能表面对齐）的AI时，部署意识往往能更好地指向评估面临的核心问题。

附录：一个形式化（玩具）模型

这一节更精确地重述了上述观点。非正式表述已可自洽；此处为偏好数学符号的读者准备。

设定。令和分别表示可能的测试场景和部署场景空间，且。假设我们计划让AI依次经历测试场景序列，如果没有抓到它搞事情，再部署到部署场景序列。在测试期间，AI的行动没有真实后果（对AI或我们都如此），如果抓到搞事情，我们就丢弃AI。部署期间行动有后果，但不会改变AI未来会遇到哪些场景。

所有场景的完整序列由某个随机过程生成——反映了我们运行哪些测试、AI与哪些用户交互等方面的随机性（因此场景远非独立同分布，甚至不是独立的）。

观测。AI不直接看到场景。它通过接口与每个场景交互——它只能访问某些上下文，有些信息由人类传递，它可能不会关注所有细节。我们建模为：AI观察到，其中映射。不同场景可能映射到相同的观测：AI可能无法区分它们。

AI的信念。在自我定位推理的语境中，AI不知道真实的和。相反，它根据自己对和的最佳猜测行动。我们将这些记为和，并简化为它们与原始对象有相同的类型签名。这是一个很大的简化，因为AI每次运行时都会对此分别推理，不同实例会得出不同结论。但为了保持记号和处理的可管理性，我们假装每个实例都得出相同结论（这对应于假设AI的自我定位推理是完美的）。

关联到我们的概念：

评估意识和部署意识是关于的结构——具体来说，它多么频繁地将测试和部署场景映射到可区分的观测。当AI遇到从未在部署中间出现的观测时，它就获得了评估意识；数学上，就是观察到某个。当遇到从未在测试中间出现的观测时，就获得了部署意识；数学上，即。
准确的自我定位信念对应于AI的模型是校准良好的：和。拥有准确自我定位信念的AI大致知道自己会面对什么分布的场景、每个场景中能观察到什么——从而支持上述战略推理。

战略含义。AI可以选择一个策略（从观测到行动的映射），以在给定信念（, ）下优化其目标。正文中的论证依赖于（AI实际能看到的）以及AI的信念和（AI认为会遇到和看到什么）的性质。

我们目前考虑的评估意识和部署意识概念是二元的（例如“我100%确定这是部署”）。但没有什么能阻止AI使用更细致的推理，从而采用更复杂的策略。例如，AI可以寻找结合了概率策略和谨慎策略（“只有确信不会被抓时才搞事情”）优点的方法——只不过通过更明确的推理，策略可以被精心优化以最大化影响。

关于LLM的使用以及这篇帖子的由来：

Vojta想出想法，与Tomas进行了广泛讨论，并撰写了初稿。然后由Claude Opus 4.7重写和评论，之后我（Vojta）编辑了所有我不完全赞同的部分。[14] Tomas和Mateusz随后对终稿给出了大量反馈和编辑。

^
这里的“有策略意识的AI”，指的是持续且胜任地追求某个目标的AI。例如，它可能在行动前考虑几个不同方案，思考每个方案可能如何失败，然后执行看起来最有可能成功的那个。
注意，就实际目的而言，AI是否“真的具有目标”、“真的理解事物”或“真的在思考”并不重要。重要的是它表现得好像拥有这些。
^
这种映射并不完美——部署中的AI可能仍然面临导致重新训练的监控，而评估也可能有超越简单“通过/不通过”的后果（例如，在实时A/B测试中AI行动影响真实用户）。此外，不同的部署场景会提供截然不同的目标推进机会（给电影建议 vs. 在五角大楼做助理），并非所有测试失败都有同等后果（语法不好比策划阴谋更轻微）。
^
举一个例子：向区块链发送一条消息并看到它被确认——这至少非常昂贵地难以伪造。
^
“自我定位”指的是从许多可能情景中判断自己当前所处的具体情景、以及如何据此做决策的问题；这里我只是用它作为人类学（anthropics）的另一个名称。它也与博弈论中的“不完美回忆”（absent-mindedness）概念相关。这方面的哲学文献很多（如睡美人问题），我个人观点是，只要不纠结于“我现在在哪里”而专注于“我属于哪个时间轨迹？”和“如果我的所有实例都采用这一策略，会有什么后果？”，大部分推理实际上相当直接。如果你想深入这个学术兔洞，我推荐Caspar Oesterheld的工作——他至少能通过我关于这个话题的ITT测试。
^
有人可能会说，一个足够对齐的AI能够理解评估背后的意图，并按其精神行事。这在技术上是对的，但一旦我们开始依赖这个论证，我们还不如直接说一个足够对齐的AI根本不需要测试。
^
这联系到了不连贯假设的问题：对于足够复杂的任务，难点不仅在于有能力的AI注意到测试场景是假的——而是从拥有相关专业知识的智能体视角来看，这个场景可能本身是不连贯的。想象一下，让一位顶级地缘整治分析师就一个捏造的危机提供建议，这个危机中的贸易数据对不上、政策过时、地缘整治背景内部矛盾。分析师不仅会怀疑这是个测试——他们还会发现很难给出有意义的答案，因为从他们的角度看，前提本身就不足以推理。类似地，一个有能力处理真实任务的AI可能会发现测试版本是定义不清的：没有单一的连贯情境与测试输入匹配，因此AI的响应取决于它选择了哪种临时解释。这使得评估即使对于完美对齐的AI也缺乏信息性——不是因为欺骗，而是因为测试没有提出一个结构良好的问题。
^
或者说，一个警告就足以避免部署AI……如果我们生活在一个没有AI竞赛、没有压力去部署甚至可疑模型的更理智的世界里的话。
^
注意，即使不进行明确的自我定位推理，AI也可能变得谨慎行事。如果训练包括监控迹象（如思维链检查、可解释性工具或行为测试）来捕捉不对齐或战略欺骗，这就会产生选择压力，偏爱那些不对齐行为难以被察觉的AI。结果AI可能默认在模糊情况下保持谨慎，不是因为它明确推理“这可能是个测试”，而是因为训练选择掉了那些可被检测的AI。就像杂草可以进化得形似作物植株而“不用思考欺骗”，AI可以通过训练被塑造成隐藏不对齐，而不需要形成明确的战略思考。我们希望在一篇[可能永远不会写的帖子]中进一步讨论这种动态。
^
至少，除非AI对自己判断“这绝对是部署”的昂贵信号的能力过度自信。
^
为完整起见，还应提到一种可能性：我们解决了对齐问题，建立了对齐的ASI，并将过去的AI置于与真实接管机会无法区分的评估中。当然，这在技术上是一种可能性。但对于不对齐的AI来说这不是决策相关的，因为如果它们第一次遇到极端昂贵的信号“这是一个真实接管机会”时就试图接管，我们就永远无法建立对齐的ASI，那些精心设计的未来测试也永远不会发生。
（当然，也许一队友好的外星独角兽独立解决了对齐问题，替我们运行这些测试，并以此激励不对齐的AI善待我们。虽然这是一个智力上有趣的反驳，但我个人不赞成需要独角兽存在的策略。）
^
如果有完美的自我定位推理，防止部署意识的唯一方法是确保AI在部署中遇到的每一种情况，都存在一个对AI来说完全相同的测试情况（这意味着人为限制AI在部署中能看到的东西，或花费不切实际的测试努力，或使用一个笨AI）。
一个重要限定：实际重要的是安全关键情景中的部署意识。然而，这些情景似乎正是那些测试困难且昂贵的情景。
^
另见梯度黑客的概念。
^
有人可能希望自我定位推理作为明确的战略思维形式，能通过可解释性工具检测出来。这确实是一个真正的防线，我们认可是有价值的。但有两个考虑限制了我们对它的信任程度：(a) 如脚注4所述，惩罚可检测战略推理的训练会创造选择压力，使得在不留下可检测推理的情况下实现相同行为结果；(b) 即使可解释性揭示了暗示性模式，也可能没有明确的证据——证据可能模棱两可到可以被忽略或解释掉。
^
我是在那之后才知道LW的LLM使用政策，所以我重写了所有被自动标记为LLM撰写的部分。这不是正确的做法，我应该把整个内容标记为LLM辅助，但我不喜欢LLM区块字体，所以就这样吧。