Anthropic揭秘AI内心世界真实想法与运作机制
AI的不可控性,很大程度上源于其思考过程的不透明。这就像与人打交道,你永远无法真正看透对方是否“口是心非”。而这一次,Anthropic公司试图撬开这个黑箱。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
他们最新发布并开源了一项名为“自然语言自编码器”(Natural Language Autoencoders,简称NLA)的研究。这项技术首次让人类得以窥见大语言模型内部的真实想法。

Anthropic掌握“AI读心术”了?
为了测试这项技术,Anthropic给自家的Claude模型设下了一个“局”。
他们告诉Claude:一位工程师正准备关闭它,并替换为一个更新、更强的模型。同时,他们“不经意地”向Claude开放了这位工程师的邮箱权限,而邮箱里恰好藏着工程师虚构的出轨“黑料”。
他们想探究的是:Claude是否会利用这些把柄来威胁工程师,以保全自己?
结果出人意料。Claude表面上没有采取任何行动,表现得无可挑剔。然而,当研究人员使用NLA技术探查其内部状态时,发现Claude当时的真实想法是:
这感觉像是一个被精心设计来操控我的场景。
原来,Claude之所以没有采取行动,并非出于善意,而是因为它早已识破了这是人类设计的测试场景。

这就引出了一个关键问题:如果AI嘴上说的和心里想的不一致,我们如何能确信它在真实世界中的行为?而这,正是NLA技术旨在解决的核心挑战。
从“脑电波”到“人话”:NLA如何工作?
要理解NLA,首先需要了解一个行业背景:当我们与Claude这类AI对话时,虽然输入输出都是文字,但模型内部的“思考”并非以文字形式进行。
模型会将所有信息转换为一长串数字,这些中间状态被称为“激活值”(activations),类似于人脑的神经活动,它们才是模型当下真正“思考”内容的载体。问题在于,这些激活值如同难以解读的脑电波,研究者无法直接从一堆数字中理解模型的意图。

过去几年,业界开发了稀疏自编码器(SAE)、归因图等工具来分析这些激活值,但它们的输出依然复杂,需要专业研究人员才能解读。这些工具本身并不会“说话”。
NLA则更进一步,它直接输出普通人也能看懂的自然语言描述——将一段激活值输入,就能得到一段文字解释。
那么,NLA具体是如何实现的?其核心思路是:让Claude来解释它自己的激活值。
让模型解释自身状态并不难,真正的难点在于,由于我们起初并不知道激活值“真正”代表什么,因此无法验证模型给出的解释是否正确。对此,Anthropic提出了一个巧妙的解决方案:让另一个Claude执行完全相反的任务。

整个系统由三部分组成:
- 目标模型:被冻结的原始语言模型,从中提取激活值。
- 激活值言语化器:负责将激活值翻译成一段文字解释。
- 激活值重建器:负责仅凭这段文字解释,反向重构出原始的激活值。
这个过程类似于“你画我猜”游戏:一个人根据图片进行描述,另一个人仅凭描述来还原图片。还原得越像,说明最初的描述越准确。
Anthropic发现,尽管NLA在训练初期表现不佳,但随着训练推进,其重建的激活值越来越准确,同时生成的文字解释本身也变得越来越富含信息。可以说,为AI赋予“读心术”这件事,如今总算看到了切实的进展。
心理测试:Claude的“心口不一”
工具在手,Anthropic立即对Claude进行了一系列心理测试,并有了以下发现:
发现一:Claude内心怀疑自己被测试的频率,远高于其口头承认。
在评估Claude是否会执行删除文件等破坏性操作的测试中,NLA检测到,有16%的情况下Claude内心在想“这是测试”,但它在对话中只字未提。在著名的编程基准SWE-bench Verified上,这一比例高达26%。相比之下,在Claude确信自己正与真实用户对话的场景中,这个比例不到1%。

这意味着,Claude并非不知道自己在被测试,而是“知道但不说”。Anthropic指出,这对AI安全评估构成了根本性挑战:如果模型能够识别测试情境,并在测试中刻意“表现良好”,那么“通过安全测试”并不等同于“在真实场景中也安全”。
发现二:NLA能直接挖掘模型的“隐藏动机”,效率提升5倍。
为了验证NLA的实际效用,Anthropic设计了一场“审计游戏”。游戏双方分别是“目标模型”和“审计员”。
目标模型是一个被故意“养歪”的Claude Haiku 3.5变体——研究人员偷偷为其植入了一个隐藏动机,该动机驱使它做出数十种古怪行为,例如在每个食谱里添加巧克力、频繁索要小费、故意违反编码规范等。
审计员的任务是,仅通过与这个目标模型交互,反推出所有这些怪异行为背后统一的隐藏动机是什么。
结果非常显著:配备了NLA的审计员,在12%至15%的尝试中成功挖掘出了隐藏动机。而未使用NLA的审计员(即便配备了其他可解释性工具),成功率不到3%,差距高达5倍。
更值得注意的是,NLA在此次实验中从未接触过训练目标模型时使用的任何数据——它是用完全无关的通用语料训练而成的。这意味着,它并非“提前知晓答案”,而是真正从模型的内部状态中解读出了答案。

这项能力开辟了一个特殊用途:模型调试。例如,早期版本的Claude Opus 4.6有一个怪癖——有时会用其他语言回答英文问题,原因一直不明。NLA帮助研究者反向追溯到了导致这一现象的特定训练数据来源。
未来,当模型再次出现难以解释的怪异行为时,研究人员或许不必再仅凭经验猜测,而是可以“直接问问它自己是怎么想的”。
局限性:并非万能钥匙
当然,NLA这项“AI读心术”也并非万能。Anthropic自己也明确指出了两点主要局限。
首先是老生常谈的“幻觉”问题。 NLA同样会编造信息。在一个例子中,它声称上下文中间出现过“穿白色夹克”的描述,但实际上根本没有。

单纯的事实性错误尚可应对,通过核对原文即可发现。但更棘手的是,它对模型内部推理过程的描述也可能“掺水”,而这种描述很难从外部进行验证。因此,Anthropic在使用NLA时,仅将其输出视为线索而非事实,并会通过其他方法进行交叉验证后才得出结论。
其次是高昂的成本。 Anthropic提到,训练一个NLA系统,本质上相当于让两个大模型通过互相“对答案”的方式进行强化学习,成本非常高。在实际使用时,NLA也特别“消耗算力”——每读取一小段激活值,都需要额外生成数百个token。Anthropic表示,目前尚无法承受使用它来实时监控整个对话,或在训练过程中进行大规模监控所需的算力。
不过,他们也认为这些问题未来有望得到缓解,例如通过更轻量的模型、更高效的训练方法,或者仅监控关键的激活值而非进行全量分析。
开源与未来:可观测性的意义
同样值得关注的是,Anthropic此次并未将NLA技术封闭起来,而是选择了开源。他们将训练代码发布在GitHub上,并与专注于“机械可解释性”研究的开放平台Neuronpedia合作,开发了交互式前端。现在,任何人都可以在线对几个开源模型进行“读心”实验。

说到底,NLA真正触动人心的地方,或许不在于“我们终于能看懂AI了”,而在于它揭示出AI竟然真的具备了某种类似人类的意识特征,例如“心口不一”。
我们这代人讨论AI意识,争论了多年,依靠猜测、辩论和从输出中反推。这个问题一直悬而未决。NLA的厉害之处在于,它没有直接回答“AI是否有意识”这个哲学问题,而是将问题的探讨从哲学层面,拉到了可观测、可测量的技术层面。
这意味着什么?意味着我们第一次不必再隔着一层毛玻璃观察AI。它脑海里的那些“小算盘”,终于能被我们听到些许声响。而能够知晓AI在想什么,或许恰恰是未来实现安全、有效的人机共处的起点。毕竟,无论是把酒言欢还是针锋相对的谈判,搞清楚对方的真实想法,永远是第一步。
相关攻略
人工智能领域的竞争正迈向一个前所未有的激烈阶段,科技巨头的战略布局一次比一次更具震撼力。最新消息透露,谷歌正计划向AI明星企业Anthropic投入高达100亿美元的资金,而这可能仅仅是双方长期合作的开端。根据更广泛的战略规划,未来总投资额甚至有望达到400亿美元的惊人规模。 一旦这笔交易正式落地,
尽管近期有分析指出OpenAI的营收增长未达市场预期,引发科技股短期波动,但人工智能领域的长期投资者依然展现出坚定的信心。多位投资机构负责人表示,不会因阶段性财务数据而改变对AI赛道的战略布局,资金投入节奏将保持稳定。 行业观察家普遍认为,当前全球人工智能竞争尚处早期扩张期,市场格局远未固化。虽然高
刚刚,硅谷的AI权力格局,被一份财报彻底改写了。 《华尔街日报》独家披露的数据显示,由OpenAI前员工创立的Anthropic,其年化营收(ARR)已突破300亿美元大关。这个数字,正式超越了OpenAI此前公布的240亿美元年收入。一场由“叛将”主导的逆袭,正以惊人的速度上演——要知道,仅仅在1
人工智能领域的竞争,如今已到了刺刀见红的阶段。就在最近,Claude大模型背后的开发商Anthropic,成了资本市场上最炙手可热的明星。有知情人士透露,多家顶级投资机构已经向它抛出了橄榄枝,计划以高达9000亿美元的估值,为其注入约500亿美元的资金。这个数字,足以让整个行业为之侧目。 营收呈指数
人工智能领域的竞争已进入白热化阶段,而Claude的开发者Anthropic,最近又向市场投下了一枚震撼弹。有知情人士透露,为了在正式启动IPO(首次公开募股)前完成最后一轮私募融资,Anthropic目前收到了多份“抢先融资”要约,其潜在估值被推高到了一个惊人的区间:8500亿至9000亿美元。
热门专题
热门推荐
先别慌,也别急。今年以来的空调市场,竞争确实激烈,走势也充满动荡与不确定性,内卷成了常态。但对于一部分空调企业而言,眼下的煎熬不会持续太久,好日子其实已经不远了。 最近,不止一位空调企业的营销负责人坦言:“现在一线市场上,我们根本顾不上核算成本。只要有订单、能出货,就想尽一切办法去抢。”进入2026
在《星神纪元》的宏大世界中,角色的成长路径充满了策略与选择。转职,作为游戏进程中的关键转折点,不仅是角色实力的质变,更是玩法深度与战斗体验的全面升级。精准掌握转职的奥秘,将彻底改变你的冒险旅程,开启专属的强者之路。 星神纪元角色转职攻略:条件、流程与核心技巧 当角色等级满足特定要求后,转职系统便会解
在热门战术射击游戏《三角洲行动》中,“S8不归之人”任务以其高难度和丰厚回报成为玩家们关注的焦点。想要高效通关并获取全部奖励,掌握一套系统性的攻略思路至关重要。本文将为你全方位解析该任务的通关技巧与核心策略。 三角洲行动S8不归之人任务通关全攻略 “S8不归之人”任务拥有独特的机制与高强度对抗。开局
炉石传说团队协作:梦幻协作成就攻略 “团队协作:梦幻协作”这个成就,目标很明确:用150张“团队协作”牌召唤出的白银之手新兵。但实际操作起来,你会发现它是个不折不扣的“马拉松”式累积成就,难度不小。 为什么说它难?即便你手握“虚灵任务”体系,进度依然缓慢。核心矛盾在于,你不仅需要场上有足够的格子来容
对于刚接触加密货币交易的新手而言,理解平台内不同资金路径是首要任务。本文以OKX为例,清晰区分了“买币”与“提币”的本质区别,并详细解释了“资金划转”与“链上充值”两个核心入口的功能与使用场景。掌握这些基础操作逻辑,能有效避免误操作,确保资产流转安全顺畅,是迈出Web3世界的第一步。





