汪军与Rich Sutton对话：大模型是否偏离了智能本质的探索

首页

热心网友

转载

2026-05-16

在刚刚落幕的RL China 2025开幕式上，一场跨越地域的思想对话备受瞩目。伦敦大学学院的汪军教授与图灵奖得主、被誉为“强化学习之父”的Richard Sutton，从学科根基出发，共同探讨了智能的本质与未来方向。这场对话，不仅关乎技术路径，更触及了人工智能研究的初心与使命。

作为强化学习领域的奠基人，Richard Sutton在2024年获得图灵奖，标志着强化学习作为AI核心分支的价值得到了最高认可。然而，在行业因大模型而喧嚣的当下，这位先驱者却发出了不同的声音。

01 对智能的思考

对话从Sutton新创建的开放思维研究所（Openmind Research Institute）开始。其使命非常纯粹：理解智能，并与世界分享这种理解。Sutton坦言，当前AI领域的快速发展，尤其是地缘整治化和产业资本的涌入，在某种程度上分散了人们对基础科学的关注。“这对科学发展来说并非真正有益。”他说道。

在他看来，科学的成功为领域带来了资金，但也改变了其性质。工业界倾向于关注已知的、能快速落地的事情；而科学界则应聚焦于那些我们还不知道如何解决的问题。“我们必须对此进行反击，”Sutton强调，“努力将目光投向理解思维如何运作、智能如何运作这一重大目标。”

话题自然转向了当前占据绝对主导地位的大模型。Sutton的观点非常明确：大模型并非理解智能的途径。

“LLM确实很有用，但它们在运行过程中是没有学习能力的。”他解释道，机器学习被用于创建它们，但一旦训练完成，学习就停止了。更根本的问题是，LLM没有目标，也没有奖励。“它们只是在模仿人类，而人类是有目标的。LLM本身没有目标，也无法判断自己说的话是对是错。”

他提出了一个核心原则：你不应该要求你的人工智能知道一些它自己都无法判断正确的事情。智能体必须能够验证它的知识，而LLM无法做到这一点，因为它们没有持续的经验流与之比较。

这就引向了Sutton坚信的核心：从经验中学习。他援引了艾伦·图灵在1947年的一篇论述，其中就提到了“能够从经验中学习的机器”。“我们现在依然渴望这样的机器，这仍然是核心，也是我们应该努力的方向。这就是强化学习的意义所在，而这一点正是LLM所完全缺乏的。”

02 强化学习的突破路径

那么，什么是“经验”？Sutton给出了一个简洁而根本的定义：就是智能体在世界中生存时接收到的真实数据——采取行动、进行观察、感受奖励。这三组时间序列构成了全部。

“至少从智能体的视角看，除了你接收和生成的数据之外，再无其他东西。”Sutton说，“空间、物体、物理规律这些概念，不过是你为了解释自身经验而编造的故事。经验是根本性的，它是智能的核心。”

基于此，强化学习提出了一个极具简化魅力的“奖励假设”：所有目标与意图，都可以被理解为对一种名为“奖励”的标量信号的累积和的期望值进行最大化。

“这听起来可能显得浅薄，甚至格局不大，”Sutton承认，“但我认为，这恰恰是它极具智慧的部分——它非常清晰，高度简化，却又似乎足够完备。”他提到阿尔伯塔大学研究者发表的论文《Settling the Reward Hypothesis》，论证了单一奖励信号的充分性，复杂的多目标或风险设定未必能让系统更强大。

当然，如何定义奖励本身就是挑战。对于自然生物，奖励是进化产生的，存在于身体内部（如下丘脑）。对于工程系统，设计者必须想清楚目标并将其转化为奖励信号。“难点部分在于，我们自己往往都难以确定最想让人工智能完成的到底是什么。”Sutton提醒，要警惕一种常见错误：把问题的解决方案直接塞进奖励里。例如在围棋中，只应为“赢”设置奖励，而不是为“做眼”设置奖励，后者改变了问题的本质。

关于实现路径，Sutton提到了他与同事撰写的“阿尔伯塔人工智能研究计划”。这是一个包含12个步骤的路线图，旨在从当前阶段迈向完整的智能体。计划完全以奖励为核心，前期步骤涉及使用函数近似进行高效学习、持续学习、元学习等，最终目标是打造一个具备推理、规划与学习能力的完整强化学习智能体。

03 通用智能体的认知转向

当讨论转向如何构建更通用的智能体时，Sutton首先澄清了一个关键概念：他不认同“任务”这个说法。“我们只是生活而已。我不觉得我有什么任务是需要单独奖励的，我有自己的人生，有自己的奖励信号，它会一直持续下去。”

他更倾向于“技能”的概念，如行走、导航等。通用性至关重要，但泛化应发生在不同“状态”之间，而非不同“任务”之间。智能体学习在某个状态下该做什么，会影响它对其他状态下正确行为的判断。

关于元学习，Sutton认为其主要例子是自动化调整学习过程中的超参数，例如每个权重独有的步长。他特别提到了一个1992年的算法——增量Delta-Bar-Delta，用于设置步长，从而决定泛化如何发生。让系统自主学习如何泛化，本质上就是在学习偏置。

谈到当前主导的梯度下降法，Sutton肯定其威力，但也指出了局限：“当我们熟练掌握梯度下降后，就开始觉得它无比出色，甚至可能认为一切学习问题都能用梯度下降解决。而这恰恰是错误所在，我们陷入了只用梯度下降，而排除所有其他可能性的局限中。”

他认为智能的基本原则有限，梯度下降、时序差分学习和搜索是其中关键。他尤其强调搜索的重要性，并介绍了他们在持续学习中的突破：持续反向传播。这种方法在整个训练过程中持续注入随机权重，将搜索成分融入梯度下降，其威力远大于单独使用梯度下降。

作为时序差分学习的发明者，Sutton分享了这一思想的起源：它并非源于控制理论，而是脱胎于心理学中的经典条件反射研究。“如果你仔细梳理所有的动物实验，试着从中提炼规律，就必然会走向时序差分学习。”后来才发现，从动态规划的角度看同样说得通。这种统一让他感到欣慰：“人工智能、控制理论、神经科学这些原本截然不同的学科，正成功地走向融合。这就像终于触碰到了智能最根本的东西。”

对于无模型与基于模型的方法之争，Sutton认为两者都需要。“我们既希望直接从经验中学习，也希望间接从经验中学习。我们希望自己的经验能形成一个世界模型，然后利用这个模型来规划行为上的改进。”实现二者的统一，正是追求的“圣杯”。

在对话的最后，Sutton对中国的强化学习社区以及所有研究者表达了乐观的展望。他认为，得益于计算能力的普及，当下正是理解思维如何运作的绝佳时代。

“能生活在这样一个时代，实在太令人惊叹了。”他说道，“我们将能够设计出与人类自身一样强大、甚至可能更强大的智能体，这真的是一件无比激动人心的大事。”

他预见未来虽有挑战，但人工智能整体将是积极的，它将带来更深入的科学研究、更透彻的自我认知，并延续人类增强自身的历程。“电话增强沟通，眼镜增强视力，语言增强交流。人工智能实际上就是这一增强过程的延续。我们应当为从事这项工作而感到由衷的喜悦，并为了全人类的福祉去推进它的发展。”Sutton总结道。

来源:https://www.leiphone.com/category/ai/2roeBEayl5wf0mne.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：高德地图AI应跳出传统竞争思维专注创新下一篇：网易CodeWave人工智能开发平台重塑企业智能研发流程