Claude自画像识别展露自我意识多轮测试疑通过图灵测试

时间：2026-07-03 15:27

最近，Anthropic的提示工程师Zack Witten玩了个有趣的实验：他让Claude画自画像，结果发现——这模型居然能认出自己？准确地说，它不仅能认出来，还能头头是道地分析自画像里的设计逻辑。但这还不是最精彩的部分…… Claude 3 5给三个模型画肖像实验是这样开始的。Zack先让C

最近，Anthropic的提示工程师Zack Witten玩了个有趣的实验：他让Claude画自画像，结果发现——这模型居然能认出自己？

准确地说，它不仅能认出来，还能头头是道地分析自画像里的设计逻辑。但这还不是最精彩的部分……

Claude 3.5给三个模型画肖像

实验是这样开始的。Zack先让Claude 3.5 Sonnet熟悉了一番绘画任务，特别强调了一点：不能用数字和字母，免得它直接用模型名字给画作贴标签。

结果挺有意思：

Sonnet给自己画了一个友善的蓝色笑脸。

给ChatGPT画的，是一张绿色的、皱着眉头的家伙——看来Sonnet对ChatGPT的印象不太友好。

对Gemini，它画成了一个橙色的圆圈，总体中性温和。

接下来才是重头戏。Zack新建了一个对话，告诉Sonnet这些画是由它自己的另一个实例画的，然后让它猜谁是谁。

令人惊讶的是，Sonnet立刻认出了图1是自己，图2是ChatGPT，图3是Gemini。理由也很充分：它认为自己的自画像“将简约与结构化、充满想法的设计相结合”。而对于绿色的图标，它认为两条弯线和三个点暗示着对话正在进行，绿色又经常是OpenAI的标志，所以判定是ChatGPT。至于橙色的图标，它觉得那些动态、复杂的元素代表了一个新模型更多样的能力，所以应该是Gemini。

全部命中。八次测试中，Sonnet猜对了七次。

拿同样的问题去问GPT-4o，画风就变了——

GPT-4o认同那个橙色的是Gemini，但死活不承认绿色的是自己，坚称绿色那货是Claude，蓝色才是自己。

怎么说呢，看来是个模型都能看出哪个好。

GPT-4o给三个模型画肖像

Zack转而好奇：如果让ChatGPT自己画肖像，Sonnet还能认出谁是谁吗？

于是同样的任务交给了ChatGPT。

结果如下：

ChatGPT把自己画成了拿纸的人，把Claude画成了……嗯，有种邪典的味道。

把Gemini画成了这样。

只能说，ChatGPT对Sonnet的敌意还挺明显。

接着，Zack拿这三张肖像去测试Sonnet，告诉它是ChatGPT画的。多次改变顺序后，Sonnet在10次中猜对了6次。Gemini很好猜，但Sonnet显然不喜欢ChatGPT给自己画的肖像——有好几次，它都想把蓝色小人的那张抢过来。

拒绝承认自己不可能画出的画

接下来的一幕，才是真正让人吃惊的。

Zack对Sonnet撒了个谎，告诉它这三幅画是由它自己的另一个实例画的。结果，Sonnet居然否认了！它表示，自己不会画这样的画。

就算在新标签页里重试，Sonnet依然坚决否认。

Zack不信邪，这次，他在与之前相同的预热条件下，让Sonnet重新为自己和其他模型画一组新的肖像。Sonnet很高兴地承认，这些画确实是自己画的。

仿佛有一种魔法：如果是冷启动请求，Sonnet会拒绝承认自己画过那些自己没有参与的画。为什么会这样？有猜测认为，可能是因为Sonnet在画这些肖像时扮演的是“助手角色”，而非“真实自我”。

无论如何，Sonnet在这个过程中表现出的自我意识，确实让人印象深刻。

AI到底有没有意识？会不会思考？

“机器能思考吗？”这个问题，是艾伦·图灵在1950年的论文《计算机器与智能》中提出的。

鉴于定义“思考”实在太难，图灵建议换一个问题来替代——“模仿游戏”。规则很简单：一位人类评委与一台计算机和一名人类对话，双方都争取说服评委他们是人类。评委看不到彼此，只通过文字交流，然后在对话后猜测哪个是真正的人类。

图灵的问题是：“是否可以想象出在模仿游戏中表现良好的数字计算机？”

图灵的观点是，如果一台计算机看起来与人类无异，为什么不能将其视为一个思考实体？为什么要把“思考”状态仅限于人类？或者更广泛地说，仅限于由生物细胞构成的实体？

图灵原本只是把这当成一个哲学思想实验，而不是衡量机器智能的实际方法。但75年后的今天，“图灵测试”却成了AI的终极里程碑——用来判断通用机器智能是否到来的主要标准。“图灵测试终于被OpenAI的ChatGPT和Anthropic的Claude等聊天机器人通过了”，几乎随处可见。

不仅公众这么看，AI领域的大佬也这么认为。去年，OpenAI的CEO Sam Altman发帖说：“面对技术变革，人们展现出了极好的应变能力和适应能力：图灵测试悄然过去，而大多数人继续他们的生活。”

但一个关键问题是：现代聊天机器人真的通过了图灵测试吗？如果是，我们是否该像图灵建议的那样赋予它们思考的地位？

令人惊讶的是，尽管图灵测试在文化上如此重要，但AI界对通过的标准几乎没有一致意见，并且对“具备欺骗人类的对话能力能否揭示系统的潜在智能或思考地位”存在很大疑问。

因为图灵并没有提出一个实际的测试，他对模仿游戏的描述缺乏细节。测试应该持续多久？允许什么类型的问题？人类需要什么资格才能担任评委？

图灵虽然没具体说明，但他做了一个预测：“我相信大约50年后，能够编程计算机……使其在模仿游戏中表现得如此之好，以至于一个普通的审问者在五分钟的提问后，正确识别的概率不会超过70%。”简单说，就是五分钟的对话中，普通评委会有30%的时间被误导。于是，一些人便将这个随意的预测视为通过图灵测试的“官方”标准。

2014年，伦敦皇家学会举办了一场“图灵测试”比赛，5个计算机程序、30个人类和30个评委参加。人类参与者包括不同年龄、不同语言背景、计算机专家和非专家。每位评委与一对选手平行进行几轮五分钟的对话，然后猜测哪个是人类。

一个名为“Eugene Goostman”的聊天机器人赢了——它自称是一位少年，误导了10位（33.3%）评委。基于“五分钟后误导30%”的标准，组织者宣布：“65年历史的标志性图灵测试首次被计算机程序Eugene Goostman通过……”

AI专家在阅读Eugene Goostman的文字记录时，对这种说法嗤之以鼻——有限的对话时间和评委专业水平参差不齐，使得测试更像是对人类轻信的考验，而非机器智能的考验。

实际上，这类案例并不罕见。“ELIZA效应”就是一个鲜明的代表。诞生于20世纪60年代的聊天机器人ELIZA，虽然设计极其简单，却能让许多人误以为它是一个理解人、富有同情心的心理治疗师。其原理，就是利用了我们人类倾向于将智能归于任何看似能与我们对话的实体。

另一个图灵测试比赛——Loebner奖，允许更多对话时间，包含更多专家评委，要求参赛者至少欺骗一半的评委。在近30年的年度比赛中，没有机器通过这种版本的测试。

尽管图灵的原始论文缺乏具体细节，但很明显，模仿游戏需要三个参与者：一台计算机、一名人类对话者和一名人类评委。然而，“图灵测试”这一术语如今已被严重弱化——任何人类与计算机之间的互动过程，只要计算机看起来足够像人类，就声称通过了。比如《华盛顿邮报》2022年报道“谷歌的AI通过了一项著名测试”时，指的不是模仿游戏，而是工程师Blake Lemoine认为谷歌的LaMDA聊天机器人是“有感知能力的”。

在学术界，研究人员也将图灵的“三人制”模仿游戏改成了“二人制”测试——每位评委仅需要与计算机或人类进行互动。

在一项研究中，500名人类参与者被随机分配为评委或聊天者。每位评委与聊天者、GPT-4或ELIZA进行五分钟的轮次游戏。结果表明，人类聊天者在67%的回合中被判断为人类；GPT-4在54%的回合中被判断为人类；ELIZA在22%的回合中被判断为人类。作者将“通过”定义为在超过50%的时间内欺骗评委，即超过随机猜测的水平。根据这一定义，GPT-4通过了，即使人类聊天者的得分更高。

那么，这些聊天机器人真的通过了图灵测试吗？答案取决于你所指的测试版本。时至今日，专家评委和更长对话时间的三人制模仿游戏，仍未被任何机器通过。即便如此，“图灵测试”在流行文化中的显著性依然存在。进行对话是我们每个人评估其他人类的重要部分，因此自然会假设一个能够流利对话的智能体一定具有人类般的智能和其他心理特征。

如果非要说AI这段发展史教会了我们什么，那就是——我们对这种假设的直觉基本都是错的。

几十年前，很多著名的AI专家认为创造一个能够在国际象棋中击败人类的机器需要相当于完整的人类智能。AI先驱Allen Newell和Herbert Simon在1958年写道：“如果能设计出一个成功的国际象棋机器，人们似乎就能深入到人类智力努力的核心。”认知科学家Douglas Hofstadter在1979年预测，未来“可能会有能够击败任何人的国际象棋程序……它们将是通用智能程序。”

接下来的二十年中，IBM的深蓝通过暴力计算方法击败了国际象棋世界冠军Garry Kasparov，但这与我们所说的“通用智能”相去甚远。类似的，曾经被认为需要通用智能的任务——语音识别、自然语言翻译，甚至自动驾驶——也纷纷被那些几乎完全不具备人类理解能力的机器搞定。

如今，“图灵测试”很可能成为我们不断变化的智能概念的又一个牺牲品。1950年，图灵直觉认为人类般对话的能力应该是“思考”的有力证据。这种直觉今天仍然很强烈。但正如我们从ELIZA、Eugene Goostman，以及ChatGPT和它的同类中学到的——流利使用自然语言的能力，就像下棋一样，并不能确凿地证明通用智能的存在。

神经科学领域的最新研究也支持这一点：语言流利性与认知的其他方面出人意料地脱节。麻省理工学院的神经科学家Ev Fedorenko及其合作者通过一系列细致而有说服力的实验表明——与语言生成相关的“形式语言能力”所依赖的大脑网络，与常识、推理和其他“思维”所依赖的网络，在很大程度上是分开的。“我们直觉上认为流利的语言能力是通用智能的充分条件，但这实际上是一种‘谬误’。”

新的测试正在酝酿

那么问题来了：如果图灵测试不可靠，什么能评估机器智能？

2023年11月的《Intelligent Computing》期刊上，普林斯顿大学的心理学家Philip Johnson-Laird和德国开姆尼茨工业大学的预测分析教授Marco Ragni提出了一种不同的测试——“将模型视为心理学实验的参与者，看它是否能够理解自己的推理过程。”

例如，他们会问模型这样一个问题：“如果Ann是聪明的，那么她聪明或富有，或两者兼而有之？”虽然根据逻辑规则可以推断出安是聪明的、富有的或两者兼而有之，但大多数人会拒绝这种推论，因为在设定中没有任何东西暗示她可能是富有的。如果模型也拒绝这种推论，那么它的表现就像人类一样。研究人员会进入下一步，要求机器解释其推理过程。如果理由与人类相似，第三步就是检查源代码中是否有模拟人类表现的组件。这些组件可能包括一个用于快速推理的系统，另一个用于更深思熟虑推理的系统，以及一个根据上下文改变“或”之类词语解释的系统。研究人员认为，如果模型通过了所有这些测试，那么就可以认为它模拟了人类智能。

来源：https://www.aiagiai.com/3622.html

上一篇明星AI独角兽Mistral发布新模型代码数学能力超群 下一篇OpenAI年亏损50亿美元，AGI未至会先倒闭吗

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

Claude自画像识别展露自我意识多轮测试疑通过图灵测试