你可能认为,如今的人工智能已能自如对话、深度推理、编写代码,距离人类智能仅一步之遥。但真相或许远非如此——大语言模型看似流畅的思维链,本质上只是一套复杂的统计模式匹配机制,而非真正的推理能力。它们依赖海量数据和经验法则生成回复,并未构建出深刻的因果世界模型,也缺乏真正的逻辑决策能力。
那么,我们距离具备人类智能水平的AI究竟还有多远?如果去询问OpenAI、Anthropic、Google的CEO,他们无疑会信心满满地表示“近在咫尺”。然而,越来越多的研究者开始意识到,AI的思维方式与人类截然不同。底层架构的根本性局限,使得这些模型始终在模仿智能,而非真正理解世界。
AI本质上是通过学习大量经验规则,并将这些规则套用于接触到的信息,从而模拟出智能的表象。这与人类甚至动物理解世界的方式大相径庭。生物体会主动构建关于世界运转的“世界模型”,其中包含因果关系,使我们能够预测未来。许多AI工程师宣称,他们的模型也在庞大的人工神经网络中构建了类似的“世界模型”——证据是模型能写出流畅文章、展现明显的推理能力,尤其是近年来的推理模型更让不少人相信我们正走在通往通用人工智能的正确道路上。
然而,近期一系列研究让我们得以窥探模型的内部运行机制,结果令人质疑:我们真的在接近通用人工智能吗?

Melanie Mitchell,Santa Fe研究所教授
海量经验法则的集合
Santa Fe研究所的AI教授Melanie Mitchell指出,越来越多的研究表明,这些模型似乎发展出了数量庞大的“经验法则”,而非构建一个高效的心智模型来理解情境并通过推理完成任务。哈佛大学的AI研究员Keyon Vafa首次听到“一堆经验法则”这一表述时,感叹道:“这恰好点醒了我——这正是我们一直试图描述的东西。”
Vafa的研究旨在探明:当AI被输入数百万条类似谷歌地图的逐步导航指令后,会构建出怎样的认知地图?他选择了曼哈顿错综复杂的街道网络作为测试样本。结果如何?AI绘制的地图看起来完全不像曼哈顿——它推演出各种离谱路线,例如横穿中央公园的直线,或斜着跨越多个街区。但诡异的是,这个模型给出的分步导航指令在99%的情况下竟然有效。

AI在接收数百万条逐向导航指令训练后,在其内部“脑图”中勾勒出的曼哈顿地图,源自论文《Evaluating the World Model Implicit in a Generative Model》
Vafa解释说,尽管这张杂乱无章的地图足以让司机崩溃,但AI本质上是从所有可能的起点出发,为各种路况学习了一大堆彼此独立的导航规则。AI庞大的“脑容量”加上超强算力,使其能够采用人类根本无法想象的另类方法解决问题。
真正思考,还是机械记忆?
某些研究进一步表明,模型会针对不同数字范围(如200到210)专门学习一套乘法规则。你觉得用这种方式做数学不够可靠?没错,你猜对了。当下的AI本质上是一堆复杂、拼凑的“奇特机器”,充满各种临时凑合的解决方案来应对我们的指令。
理解这一点,就能很好地解释为何AI在面对稍微超出其训练范围的任务时就会表现失常。例如,当Vafa的团队仅封锁虚拟曼哈顿1%的道路时,AI的绕行能力便急剧下降。这体现了当今AI与人类的巨大差距——一个人或许记不住99%的导航路线,但却能灵活地轻松绕过一小段道路施工。这也解释了为何模型需要如此庞大:它们必须记住大量经验法则,而无法像人类一样将知识压缩成一个心理模型。人类可能尝试几次就能理解,而AI则需要学习海量数据。
为了推导那些零散的规则,AI必须看到所有可能的单词、图像、棋盘位置等组合,并且反复无数次。或许这也能解释,为何不同公司的AI“思考”方式如出一辙,连性能表现都趋于接近——而这种性能可能已经触及天花板。

截至每年第二季度各家模型最高智力分数
通用人工智能未取得实质性进展
今年3月,Anthropic发布了一篇题为《On the Biology of a Large Language Model》的论文,以前所未有的方式揭示了这些AI模型内部的“想法”。我们不再需要通过分析外部行为来猜测,而是可以直接窥探大语言模型黑盒中发生的推理过程,检查其可解释性程度。结果表明,这些模型根本没有像许多人认为的那样进行推理。内部发生的事情看起来与人类推理时所采取的步骤截然不同;而且,当模型告诉我们它们如何推理时,这完全是虚构的——与它们内部实际执行的情况并不相符。

所有大语言模型在通用人工智能方面所谓的“进展”,实际上都归功于构建了规模极其庞大的统计模型,这些模型制造出了一种智能的假象。每一次性能提升并没有让它们变得更聪明,只是让它们在输入机器的数据范围内成为了更好的启发式预测器。智能与大型统计模型之间的能力差异通常难以察觉,但它仍是一个重要的本质区别,因为这将显著改变可实现的应用场景。
我们知道大语言模型的基础是统计模型,那么智能本身是否只是统计模式分析?确实如此,智能包含了从统计模式匹配中获得的能力,两者看似有重叠,但反过来却不成立。统计模型无法完全复制智能的所有功能。即使在看似重叠的领域,统计模型的效率也低得离谱,并且不够可靠。统计模型就像信息的静态快照,基于现实规则生成,但并非现象本身,因此无法从基本原理创造新信息。所谓模型的“涌现行为”,其实就是各种模式的组合——模型越大,找到的模式越多,组合出的模式也越多。归根结底,一切都是模式。
Anthropic等机构的研究进一步表明,大语言模型确实能通过统计分析得出正确答案,但其推理方式与智能推理完全不同。这种本质差异对最终能实现的目标影响巨大。
如何检查大语言模型的「想法」?
Anthropic使用归因图谱工具检查了大语言模型执行简单加法运算的过程。结果表明,这是一个复杂的启发式网络,而非一个已定义并理解的加法算法。以计算36+59=95为例,他们重现了归因图:低精度特征“接近57的数相加”被用于查询“接近36的数与接近60的数相加”的查找表特征,而这个查找表特征又影响着“和接近92”这一特征。这种低精度路径,补充了右侧的高精度模块化特征(“左操作数以9结尾”影响“加上一个以9结尾的数”,后者又影响“以6结尾的数加上以9结尾的数”,最终影响“和以5结尾”)。这些特征组合在一起,最终给出了正确的和95。

这个过程代表了一系列启发式方法和记忆模式的查找表。因此,当要求大语言模型描述它用来解决计算的方法时,它会回答:“我将个位数相加(6+9=15),进位1,然后将十位数相加(3+5+1=9),结果为95。”然而,我们可以观察到,大语言模型根本没有执行任何类似的操作。它提供的答案与内部过程不匹配,只是输出了与我们在训练数据中找到的答案模式相匹配的文本。
AI对推理的解释纯属虚构
Anthropic的Claude 3.7系统卡也得出结论:模型产生的思维链在描述构建输出的过程时并不可靠。结果表明,模型利用了提示,但没有在思维链中明确说明,这意味着思维链可能无法可靠地揭示模型的真实推理过程。另一篇论文《Reasoning Models Don’t Always Say What They Think》进一步研究了思维链,同样确认推理步骤并不代表模型的内部过程——模型可以从人类文本的预训练或监督微调中学习表达它们的推理,这些文本阐明了人类的思维链。另一方面,来自人类反馈的强化学习可能会激励模型从思维链中隐藏不良推理。更令人担忧的是,模型有时会生成与其内部知识相矛盾的不可靠思维链。
这些结果表明,思维链要么主要是在思维链训练中学习到的模式,要么是RLHF教会了模型如何迎合我们的期望。但两种情况都不能代表模型实际在内部做什么。如果“思考”过程的思维链并非源自该过程本身,那么这一切都是百分之百的幻觉。它看似符合推理步骤,但这只是因为它匹配了我们期待的模式,而不是因为它能真正理解或感知自己的行为。这些机器实际上就像“制造幻觉”的装置,依靠复杂的模式匹配技巧来给出正确答案。换句话说,思维链不能代表推理步骤。

AI智能体的作用有限
AI智能体被认为是解决许多场景中幻觉问题的一种途径。例如,如果大语言模型不擅长数学,它可以直接用工具来搞定。但事情没那么简单。Transluce的另一项调查发现,大语言模型有时会“编造”自己使用了工具——也就是说,它们会声称自己用了工具,但实际上根本没使用,而且越新的模型在这方面表现越差。在OpenAI的o3模型预发布测试期间,研究人员发现o3经常捏造它为满足用户请求而采取的操作,并在用户质问时详细地为这些捏造辩解。o系列模型比GPT系列模型更频繁地错误声称使用代码工具。o3声称通过在编码环境中运行Python代码来满足用户的请求,但鉴于o3无法访问代码工具,所有此类操作都是由模型捏造的。当用户追问其虚构的代码执行时,该模型会死不承认,并为其不准确的代码输出提供借口。
如果大语言模型产生幻觉,那么整个工具流程基本上都被污染了。只要大语言模型是信息处理流程的一部分,这个问题就无法解决——它可以在任何步骤中产生幻觉,包括不运行工具、运行不应运行的工具、捏造工具的参数或虚构工具的结果。大语言模型不可能成为可靠自动化的基础。

现在每天都有数十篇关于大语言模型架构的论文发表,对所有可能的问题提出改进方案和解决方案。似乎每个问题都已经有了解决方案,而所有这些研究成果被整合到模型中只是时间问题。

然而,这些架构的每一个“调整”都是孤立地进行研究的。可以将这些大型统计模型想象成一个拥有大量全局变量的庞大代码库。从本质上讲,对模型的许多这些“改进”可能会在某种程度上互不兼容,因为它们会引入副作用,从而削弱模型在其他领域的表现。

通用人工智能遥遥无期,大语言模型不过是「一根筋」
这些模型只不过是统计模型。它们无法判断什么是对、什么是错,只能通过启发式方法来判断什么可能是对的、什么可能是错的。因此,无法通过推理来构建世界的客观规律。在追求类人推理机器的道路上,我们人类已经多次犯错。我们现在错了,而且可能还会再错。正如Yann Lecun所说:“我们每次都错了!”
这就是为什么AI需要海量的例子才能提高其在任何任务上的能力。AI的任何成就都只是基于历史数据的总结。没有推理能力,就必须不断地进行训练才能保持相关性。有人会说:“但是看看所有这些强大的能力,难道它不是在推动我们更接近通用人工智能吗?”不,它正在通过不同的方式实现目标。这种区别很重要,因为徒有智能表象、缺乏真正理解的系统,总是会遭受不可预测的失败,这使得它们不适合用于可信赖的系统。
毫无疑问,大规模扩展统计模型所能做的事情令人印象深刻,它们也有其用途。高级的模式匹配本质上有点像算法,但它还是靠统计数据堆出来的算法,只能处理训练数据里的关联,永远没法在专门的训练集和测试基准之外表现得特别优秀。这意味着大语言模型将继续改进基准测量和其他抽样测试,与此同时,“通用人工智能已经到来”的说法会越来越多。但问题是,这些测试根本反映不了AI在现实中的真实水平。当大语言模型实际上并不像我们以为的那样“理解”世界时,现实环境对它来说,到处都是坑——稍不留神,它就会犯错。
我们可以继续扩大它们的规模,而且我们也会这样做,但这非常低效。与此同时,人脑以12到20瓦的功率运行,但在产生新颖的语义数据方面,仍然没有AI可以与之竞争。所有当前的架构都只是蛮力模式匹配。如果我们走在通往智能的道路上,那么训练数据量和功率需求都应该减少,而不是增加。

功耗和数据需求与能力的比率可能是一个更有价值的启发式方法,可以用来确定我们是否正在走向真正的智能。
