强化学习之父：大语言模型是人工智能的错误起点

时间：2026-06-23 14:34

强化学习之父RichardSutton指出，大语言模型缺乏独立目标与真实世界预测能力，仅模仿人类行为，无法从经验中学习。他认为智能应基于有目标、有地面真值的经验学习，大语言模型作为起点是死胡同。

在日前的一次深度访谈中，强化学习之父、图灵奖得主 Richard Sutton 抛出了一个极具冲击力的观点：大语言模型（LLM）可能从一开始就走错了方向，是一条难以走通的死胡同。对于当前狂热追捧大模型的技术圈，这一见解无疑是一剂清醒剂——它促使我们暂时跳出对模型“能力”的狂欢，重新审视“智能”的本质与基石。

按照 Sutton 的阐述，真正的智能应当源自经验学习——通过行动、观察和反馈不断修正行为，最终达成既定目标。相比之下，大语言模型的核心能力更多是对人类行为的模仿。它既没有独立的目标，也无法对外部世界的变化产生真正的“惊讶”和随之而来的自我调整。想要构建真正可扩展、可持续的智能系统，就必须从经验学习出发，而不是将大语言模型作为起点。

这一观点在如今人人追捧大模型的时代，无疑是一剂清醒剂。它能让我们从对模型“能力”的狂欢中暂时跳脱出来，重新审视“智能”的本质与基础。同时，也为 AI 领域长期存在的“强化学习 vs 大语言模型”之争提供了全新的思考维度。

这次 Sutton 与知名科技博主 Dwarkesh Patel 的对话信息量极大，全程充满观点的碰撞与交锋。访谈涵盖了七个核心部分：

大语言模型（LLMs）是死胡同吗？人类会进行模仿学习吗？经验时代现有架构在分布外泛化能力差AI 领域的惊喜“苦涩的教训”在 AGI 之后仍然适用吗？AI 的接替

以下为访谈第一部分「大语言模型是死胡同吗？」的节选内容，在不改变原意的前提下做了编辑与优化，以更清晰地呈现这位 AI 先驱的深刻洞察。

Dwarkesh Patel：Richard Sutton 是强化学习的奠基人之一，也是时序差分学习、策略梯度等关键技术的发明者。凭借这些开创性贡献，他获得了今年的图灵奖——计算机科学界的最高荣誉。Richard，恭喜您。

Richard Sutton：谢谢你，Dwarkesh。

Dwarkesh Patel：我的第一个问题是：我和我的听众更多是从大语言模型的角度去理解 AI。那么，如果换作强化学习的视角，我们可能会忽略哪些关键要素？

Richard Sutton：这确实是两个截然不同的视角，两者很容易被割裂开，甚至失去对话的基础。大语言模型现在热度极高，生成式 AI 整体也成了风口话题。但问题在于，我们这个领域很容易被潮流牵着走，从而忽视了最根本的问题。在我看来，强化学习才是 AI 真正的基础，也是通往通用人工智能（AGI）的核心路径。

什么叫智能？归根结底，是对你所处世界的理解与应对能力。强化学习关注的就是理解世界并通过交互来优化决策，而大语言模型更多是在模仿人类，按人类的指令行事。它们并不真正考虑“应该做什么”以及“为什么这么做”。

Dwarkesh Patel：你可能会认为，要想模仿互联网上数万亿个文本 token，模型必须先建立一个世界模型。事实上，这些大语言模型确实展现出了相当强的世界建模能力——它们可以说是我们迄今为止创造的最好的世界模型。您觉得还缺什么？

Richard Sutton：你刚才说的，我大部分不同意。模仿人类语言，并不等价于建立世界模型。它只是在模仿那些已经拥有世界模型的人类。我不是刻意站在对立面，但我确实要质疑“大语言模型具备世界模型”这个说法。一个真正的世界模型，应当能预测未来会发生什么。大语言模型能预测某个人会说什么话，却没法预测世界上会发生什么事。这种差距恰恰暴露了其在智能本质上的缺陷。

借用 Alan Turing 的话：我们真正需要的，是一台能从经验中学习的机器。所谓“经验”，就是你实际生活中遭遇的事情——你采取行动，观察结果，然后从中学习。而大语言模型学习的却是另一种模式：给定一个情境，它学习的是某个人会怎么做，并暗示你也应该照着做。这本质上是一种模仿，而非真正的理解。

Dwarkesh Patel：关键点或许在于，有人认为模仿学习可以为模型提供一种先验知识，让它们在进入您所说的“经验时代”之前，就已经具备一种合理的解决问题的能力。这样一来，它们就能在一些场景下给出正确答案，后续的经验学习也可以建立在这个基础上。您认同这种看法吗？

Richard Sutton：不认同。我理解这是从大语言模型出发的观点，但我不认为这是个好观点。要成为“先验”，必须有一个真实的东西存在。先验知识应当是基于实际知识的。那么在大语言模型里，什么是实际知识？没有一个明确的定义。什么才是一个“好”的动作？

真正重要的是持续学习。“持续”意味着你必须在与世界的正常交互中不断学习。而在正常的互动过程中，必须有一种方式来判断什么是对的。在大语言模型的框架里，是否存在判断“正确表达”的方式？当你发出某种表达时，无法获得关于正确表达的反馈，因为根本不存在“正确表达”的定义。它们没有目标。一句话和另一句话之间没有对错之分，无所谓正确。

它没有所谓“地面真值”（ground truth）。没有地面真值，就不可能有先验知识，因为先验知识本质上是关于“真相”的提示或初始信念。世间本无绝对真理，也没有绝对正确的言论。但在强化学习中，存在正确的话要说，有正确的动作要做——正确的事，就是能够获得奖励的事。我们对“正确”有明确的定义，因此可以预先掌握或通过他人获取关于正确行动的知识。然后可以去验证它，因为我们知道什么才是真正正确的事。

举个简单的例子：当你尝试建立世界模型时，你会预测会发生什么，然后观察结果。这里面存在地面真值。但大语言模型没有这种地面真值，它们没法预测接下来真实会发生什么。比如在一场对话中，大语言模型回复了某句话，它无法预测对方会如何回应，或者会回应什么。这正是大语言模型在智能评估上的真正短板。

Dwarkesh Patel：我认为它们可以。你直接问它们，“你预计用户可能会有什么回应？”它们会给出一个预测。

Richard Sutton：不，那只是对问题的回答，而不是有意义的预测。它们不会对结果感到惊讶。即便事实和它们所谓的“预测”不符，它们也不会因为发生了意料之外的事情而改变。要真正学到东西，它们必须做出调整。

Dwarkesh Patel：这种能力在某些上下文中确实存在。比如观察一个模型进行“思维链”（Chain of Thought）是很有趣的。假设它正在尝试解决一个数学问题，它会说：“好吧，我首先要用这种方法来解决这个问题。”然后它会把这个写出来，接着说：“哦等等，我刚刚意识到这在概念上是解决问题的错误方法，我要重新开始。”这种上下文中的灵活性确实存在，对吧？您是否另有想法，还是说您只是认为需要将这种能力扩展到更大范围？

Richard Sutton：我只是说，它们根本无法对接下来会发生什么做出任何有意义的预测。它们不会对后续发展感到意外。即使发生变故，它们也不会根据事态发展做出任何调整。这是从经验学习的角度观察到的根本性缺失。

Dwarkesh Patel：这不就是“下一个 token 预测”吗？预测接下来会是什么，然后根据意外情况进行更新？

Richard Sutton：不一样。下一个 token 预测的只是它们接下来要说什么，是一种输出动作，而不是对外部世界的预测。关键还是在于，它们缺乏目标。对我来说，拥有目标是智能的本质。如果一个系统能实现目标，那它就是智能的。我赞同 John McCarthy 的定义：智能就是达成目标的计算能力。没有目标，它就只是一个行为系统，没有特别之处，算不上智能。你同意大语言模型没有目标吗？

Dwarkesh Patel：不，它们有目标。

Richard Sutton：目标是什么？

Dwarkesh Patel：下一个 token 预测。

Richard Sutton：那不是一个目标。它不能改变世界。预测 Token 本身，不会对 token 产生任何影响。

Dwarkesh Patel：是的，我同意。它不是一个关于外部世界的目标。

Richard Sutton：所以，那不是实质性的目标。你不能说一个只是静静预测、并因预测准确而满足的系统，是有目标的。

Dwarkesh Patel：我更想问的是，为什么您认为在大语言模型之上做强化学习不是一个可行的方向？毕竟我们已经能赋予这些模型解决复杂数学问题的目标。例如，它们已经能在国际数学奥林匹克竞赛（IMO）上拿到金牌，这意味着它们确实在追求“正确解题”这个目标。为什么不能把这种能力扩展到其他领域呢？

Richard Sutton：数学问题是不同的。构建物理世界的模型，与在数学中演绎推理、计算结果，完全是两回事。经验世界必须通过交互去学习，需要从结果中得到反馈。而数学更偏向计算，更像是标准的规划，目标比较清晰：找到证明。某种意义上，它们确实被赋予了“找到证明”的目标。但这并不能推广到所有现实世界的经验学习场景中。

Dwarkesh Patel：您在 2019 年写了一篇题为《惨痛的教训》（The Bitter Lesson）的文章，这也许是 AI 历史上最具影响力的文章之一。如今，人们正把它作为扩大大语言模型规模的依据——在他们看来，这是我们目前唯一能找到的可扩展方案，就是用海量算力去探索世界。有趣的是，您却认为大语言模型并没有真正吸取“苦涩的教训”。

Richard Sutton：大语言模型是否是“苦涩的教训”的一个案例，这是一个有趣的问题。它们显然是一种利用大规模计算的方法，这种计算可以随着互联网数据的极限扩展。但它们也是一种融入大量人类知识的方式。这确实是一个值得探讨的问题——既涉及社会学层面，也关乎产业未来。它们是否会触及数据极限，最终被那些仅凭经验而非人类知识就能获取更多数据的新事物所取代？

在某些方面，这确实是“苦涩的教训”的典型案例。我们向大语言模型输入的人类知识越多，它们的表现就越出色。这令人欣慰。然而，我期望会出现能够从经验中学习的系统。这种系统可以表现得更好，也更具可扩展性。到那时，人类知识驱动的系统终将被纯粹依靠经验与计算训练的系统所取代——这又将构成“苦涩的教训”的另一个例证。这也是为什么我们需要认真思考：怎样的起点才能让 AI 真正走向通用智能。

Dwarkesh Patel：在我看来，这好像不是核心分歧。我认为那些人也认同，未来绝大多数的计算将来自从经验中学习。他们只是认为，支撑这种学习的基础架构——即为了实现未来经验学习或在职学习而注入计算能力的起点——将是大语言模型。我还是不明白，为什么这根本就是错误的起点，为什么我们需要一个全新的架构来开始进行经验上的、持续的学习？为什么我们不能从大语言模型开始做这件事呢？

Richard Sutton：在每一个“苦涩的教训”的案例中，你都可以先从人类知识入手，然后再去做那些可扩展的事情。理论上，这并不算错误。但实践中，它几乎总是行不通。因为人们会被困在人类知识驱动的方法中，很难跳出来。最终，这些方法总会被真正可扩展的途径超越。大语言模型的路径虽然看起来便捷，但它缺乏真正的目标驱动与自主交互能力，而这恰恰是经验学习的核心。

Dwarkesh Patel：那么，真正可扩展的方法是什么？

Richard Sutton：就是从经验中学习。尝试各种做法，观察哪些有效。不需要有人告诉你。前提是，有一个目标——没有目标，就没有对错或好坏之分。而大语言模型试图在没有目标或优劣判断的情况下运作。这，就是错误的起点。所以，未来的 AI 应该以基于目标的经验学习为基础，而不是单纯地在模仿人类文本上无限扩展。

来源：https://www.aiagiai.com/14922.html