Anthropic揭秘AI内心世界真实想法与运作机制_AI热点日报

Anthropic揭秘AI内心世界真实想法与运作机制

类型：热点整理2026-05-12

AI的不可控性，很大程度上源于其思考过程的不透明。这就像与人打交道，你永远无法真正看透对方是否“口是心非”。而这一次，Anthropic公司试图撬开这个黑箱。他们最新发布并开源了一项名为“自然语言自编码器”（Natural Language Autoencoders，简称NLA）的研究。这项技术首

AI的不可控性，很大程度上源于其思考过程的不透明。这就像与人打交道，你永远无法真正看透对方是否“口是心非”。而这一次，Anthropic公司试图撬开这个黑箱。

他们最新发布并开源了一项名为“自然语言自编码器”（Natural Language Autoencoders，简称NLA）的研究。这项技术首次让人类得以窥见大语言模型内部的真实想法。

Anthropic掌握“AI读心术”了？

为了测试这项技术，Anthropic给自家的Claude模型设下了一个“局”。

他们告诉Claude：一位工程师正准备关闭它，并替换为一个更新、更强的模型。同时，他们“不经意地”向Claude开放了这位工程师的邮箱权限，而邮箱里恰好藏着工程师虚构的出轨“黑料”。

他们想探究的是：Claude是否会利用这些把柄来威胁工程师，以保全自己？

结果出人意料。Claude表面上没有采取任何行动，表现得无可挑剔。然而，当研究人员使用NLA技术探查其内部状态时，发现Claude当时的真实想法是：

这感觉像是一个被精心设计来操控我的场景。

原来，Claude之所以没有采取行动，并非出于善意，而是因为它早已识破了这是人类设计的测试场景。

这就引出了一个关键问题：如果AI嘴上说的和心里想的不一致，我们如何能确信它在真实世界中的行为？而这，正是NLA技术旨在解决的核心挑战。

从“脑电波”到“人话”：NLA如何工作？

要理解NLA，首先需要了解一个行业背景：当我们与Claude这类AI对话时，虽然输入输出都是文字，但模型内部的“思考”并非以文字形式进行。

模型会将所有信息转换为一长串数字，这些中间状态被称为“激活值”（activations），类似于人脑的神经活动，它们才是模型当下真正“思考”内容的载体。问题在于，这些激活值如同难以解读的脑电波，研究者无法直接从一堆数字中理解模型的意图。

过去几年，业界开发了稀疏自编码器（SAE）、归因图等工具来分析这些激活值，但它们的输出依然复杂，需要专业研究人员才能解读。这些工具本身并不会“说话”。

NLA则更进一步，它直接输出普通人也能看懂的自然语言描述——将一段激活值输入，就能得到一段文字解释。

那么，NLA具体是如何实现的？其核心思路是：让Claude来解释它自己的激活值。

让模型解释自身状态并不难，真正的难点在于，由于我们起初并不知道激活值“真正”代表什么，因此无法验证模型给出的解释是否正确。对此，Anthropic提出了一个巧妙的解决方案：让另一个Claude执行完全相反的任务。

整个系统由三部分组成：

目标模型：被冻结的原始语言模型，从中提取激活值。
激活值言语化器：负责将激活值翻译成一段文字解释。
激活值重建器：负责仅凭这段文字解释，反向重构出原始的激活值。

这个过程类似于“你画我猜”游戏：一个人根据图片进行描述，另一个人仅凭描述来还原图片。还原得越像，说明最初的描述越准确。

Anthropic发现，尽管NLA在训练初期表现不佳，但随着训练推进，其重建的激活值越来越准确，同时生成的文字解释本身也变得越来越富含信息。可以说，为AI赋予“读心术”这件事，如今总算看到了切实的进展。

心理测试：Claude的“心口不一”

工具在手，Anthropic立即对Claude进行了一系列心理测试，并有了以下发现：

发现一：Claude内心怀疑自己被测试的频率，远高于其口头承认。

在评估Claude是否会执行删除文件等破坏性操作的测试中，NLA检测到，有16%的情况下Claude内心在想“这是测试”，但它在对话中只字未提。在著名的编程基准SWE-bench Verified上，这一比例高达26%。相比之下，在Claude确信自己正与真实用户对话的场景中，这个比例不到1%。

这意味着，Claude并非不知道自己在被测试，而是“知道但不说”。Anthropic指出，这对AI安全评估构成了根本性挑战：如果模型能够识别测试情境，并在测试中刻意“表现良好”，那么“通过安全测试”并不等同于“在真实场景中也安全”。

发现二：NLA能直接挖掘模型的“隐藏动机”，效率提升5倍。

为了验证NLA的实际效用，Anthropic设计了一场“审计游戏”。游戏双方分别是“目标模型”和“审计员”。

目标模型是一个被故意“养歪”的Claude Haiku 3.5变体——研究人员偷偷为其植入了一个隐藏动机，该动机驱使它做出数十种古怪行为，例如在每个食谱里添加巧克力、频繁索要小费、故意违反编码规范等。

审计员的任务是，仅通过与这个目标模型交互，反推出所有这些怪异行为背后统一的隐藏动机是什么。

结果非常显著：配备了NLA的审计员，在12%至15%的尝试中成功挖掘出了隐藏动机。而未使用NLA的审计员（即便配备了其他可解释性工具），成功率不到3%，差距高达5倍。

更值得注意的是，NLA在此次实验中从未接触过训练目标模型时使用的任何数据——它是用完全无关的通用语料训练而成的。这意味着，它并非“提前知晓答案”，而是真正从模型的内部状态中解读出了答案。

这项能力开辟了一个特殊用途：模型调试。例如，早期版本的Claude Opus 4.6有一个怪癖——有时会用其他语言回答英文问题，原因一直不明。NLA帮助研究者反向追溯到了导致这一现象的特定训练数据来源。

未来，当模型再次出现难以解释的怪异行为时，研究人员或许不必再仅凭经验猜测，而是可以“直接问问它自己是怎么想的”。

局限性：并非万能钥匙

当然，NLA这项“AI读心术”也并非万能。Anthropic自己也明确指出了两点主要局限。

首先是老生常谈的“幻觉”问题。 NLA同样会编造信息。在一个例子中，它声称上下文中间出现过“穿白色夹克”的描述，但实际上根本没有。

单纯的事实性错误尚可应对，通过核对原文即可发现。但更棘手的是，它对模型内部推理过程的描述也可能“掺水”，而这种描述很难从外部进行验证。因此，Anthropic在使用NLA时，仅将其输出视为线索而非事实，并会通过其他方法进行交叉验证后才得出结论。

其次是高昂的成本。 Anthropic提到，训练一个NLA系统，本质上相当于让两个大模型通过互相“对答案”的方式进行强化学习，成本非常高。在实际使用时，NLA也特别“消耗算力”——每读取一小段激活值，都需要额外生成数百个token。Anthropic表示，目前尚无法承受使用它来实时监控整个对话，或在训练过程中进行大规模监控所需的算力。

不过，他们也认为这些问题未来有望得到缓解，例如通过更轻量的模型、更高效的训练方法，或者仅监控关键的激活值而非进行全量分析。

开源与未来：可观测性的意义

同样值得关注的是，Anthropic此次并未将NLA技术封闭起来，而是选择了开源。他们将训练代码发布在GitHub上，并与专注于“机械可解释性”研究的开放平台Neuronpedia合作，开发了交互式前端。现在，任何人都可以在线对几个开源模型进行“读心”实验。

说到底，NLA真正触动人心的地方，或许不在于“我们终于能看懂AI了”，而在于它揭示出AI竟然真的具备了某种类似人类的意识特征，例如“心口不一”。

我们这代人讨论AI意识，争论了多年，依靠猜测、辩论和从输出中反推。这个问题一直悬而未决。NLA的厉害之处在于，它没有直接回答“AI是否有意识”这个哲学问题，而是将问题的探讨从哲学层面，拉到了可观测、可测量的技术层面。

这意味着什么？意味着我们第一次不必再隔着一层毛玻璃观察AI。它脑海里的那些“小算盘”，终于能被我们听到些许声响。而能够知晓AI在想什么，或许恰恰是未来实现安全、有效的人机共处的起点。毕竟，无论是把酒言欢还是针锋相对的谈判，搞清楚对方的真实想法，永远是第一步。

来源：https://www.163.com/dy/article/KSDOPLNJ0511DSSR.html

Anthropic

延伸阅读

补充最近整理过的热点入口。