首页 游戏 软件 资讯 排行榜 专题
首页
AI
汪军与Rich Sutton对话:大模型是否偏离了智能本质的探索

汪军与Rich Sutton对话:大模型是否偏离了智能本质的探索

热心网友
11
转载
2026-05-16

在刚刚落幕的RL China 2025开幕式上,一场跨越地域的思想对话备受瞩目。伦敦大学学院的汪军教授与图灵奖得主、被誉为“强化学习之父”的Richard Sutton,从学科根基出发,共同探讨了智能的本质与未来方向。这场对话,不仅关乎技术路径,更触及了人工智能研究的初心与使命。

作为强化学习领域的奠基人,Richard Sutton在2024年获得图灵奖,标志着强化学习作为AI核心分支的价值得到了最高认可。然而,在行业因大模型而喧嚣的当下,这位先驱者却发出了不同的声音。

01 对智能的思考

对话从Sutton新创建的开放思维研究所(Openmind Research Institute)开始。其使命非常纯粹:理解智能,并与世界分享这种理解。Sutton坦言,当前AI领域的快速发展,尤其是地缘整治化和产业资本的涌入,在某种程度上分散了人们对基础科学的关注。“这对科学发展来说并非真正有益。”他说道。

在他看来,科学的成功为领域带来了资金,但也改变了其性质。工业界倾向于关注已知的、能快速落地的事情;而科学界则应聚焦于那些我们还不知道如何解决的问题。“我们必须对此进行反击,”Sutton强调,“努力将目光投向理解思维如何运作、智能如何运作这一重大目标。”

话题自然转向了当前占据绝对主导地位的大模型。Sutton的观点非常明确:大模型并非理解智能的途径。

“LLM确实很有用,但它们在运行过程中是没有学习能力的。”他解释道,机器学习被用于创建它们,但一旦训练完成,学习就停止了。更根本的问题是,LLM没有目标,也没有奖励。“它们只是在模仿人类,而人类是有目标的。LLM本身没有目标,也无法判断自己说的话是对是错。”

他提出了一个核心原则:你不应该要求你的人工智能知道一些它自己都无法判断正确的事情。智能体必须能够验证它的知识,而LLM无法做到这一点,因为它们没有持续的经验流与之比较。

这就引向了Sutton坚信的核心:从经验中学习。他援引了艾伦·图灵在1947年的一篇论述,其中就提到了“能够从经验中学习的机器”。“我们现在依然渴望这样的机器,这仍然是核心,也是我们应该努力的方向。这就是强化学习的意义所在,而这一点正是LLM所完全缺乏的。”

02 强化学习的突破路径

那么,什么是“经验”?Sutton给出了一个简洁而根本的定义:就是智能体在世界中生存时接收到的真实数据——采取行动、进行观察、感受奖励。这三组时间序列构成了全部。

“至少从智能体的视角看,除了你接收和生成的数据之外,再无其他东西。”Sutton说,“空间、物体、物理规律这些概念,不过是你为了解释自身经验而编造的故事。经验是根本性的,它是智能的核心。”

基于此,强化学习提出了一个极具简化魅力的“奖励假设”:所有目标与意图,都可以被理解为对一种名为“奖励”的标量信号的累积和的期望值进行最大化。

“这听起来可能显得浅薄,甚至格局不大,”Sutton承认,“但我认为,这恰恰是它极具智慧的部分——它非常清晰,高度简化,却又似乎足够完备。”他提到阿尔伯塔大学研究者发表的论文《Settling the Reward Hypothesis》,论证了单一奖励信号的充分性,复杂的多目标或风险设定未必能让系统更强大。

当然,如何定义奖励本身就是挑战。对于自然生物,奖励是进化产生的,存在于身体内部(如下丘脑)。对于工程系统,设计者必须想清楚目标并将其转化为奖励信号。“难点部分在于,我们自己往往都难以确定最想让人工智能完成的到底是什么。”Sutton提醒,要警惕一种常见错误:把问题的解决方案直接塞进奖励里。例如在围棋中,只应为“赢”设置奖励,而不是为“做眼”设置奖励,后者改变了问题的本质。

关于实现路径,Sutton提到了他与同事撰写的“阿尔伯塔人工智能研究计划”。这是一个包含12个步骤的路线图,旨在从当前阶段迈向完整的智能体。计划完全以奖励为核心,前期步骤涉及使用函数近似进行高效学习、持续学习、元学习等,最终目标是打造一个具备推理、规划与学习能力的完整强化学习智能体。

03 通用智能体的认知转向

当讨论转向如何构建更通用的智能体时,Sutton首先澄清了一个关键概念:他不认同“任务”这个说法。“我们只是生活而已。我不觉得我有什么任务是需要单独奖励的,我有自己的人生,有自己的奖励信号,它会一直持续下去。”

他更倾向于“技能”的概念,如行走、导航等。通用性至关重要,但泛化应发生在不同“状态”之间,而非不同“任务”之间。智能体学习在某个状态下该做什么,会影响它对其他状态下正确行为的判断。

关于元学习,Sutton认为其主要例子是自动化调整学习过程中的超参数,例如每个权重独有的步长。他特别提到了一个1992年的算法——增量Delta-Bar-Delta,用于设置步长,从而决定泛化如何发生。让系统自主学习如何泛化,本质上就是在学习偏置。

谈到当前主导的梯度下降法,Sutton肯定其威力,但也指出了局限:“当我们熟练掌握梯度下降后,就开始觉得它无比出色,甚至可能认为一切学习问题都能用梯度下降解决。而这恰恰是错误所在,我们陷入了只用梯度下降,而排除所有其他可能性的局限中。”

他认为智能的基本原则有限,梯度下降、时序差分学习和搜索是其中关键。他尤其强调搜索的重要性,并介绍了他们在持续学习中的突破:持续反向传播。这种方法在整个训练过程中持续注入随机权重,将搜索成分融入梯度下降,其威力远大于单独使用梯度下降。

作为时序差分学习的发明者,Sutton分享了这一思想的起源:它并非源于控制理论,而是脱胎于心理学中的经典条件反射研究。“如果你仔细梳理所有的动物实验,试着从中提炼规律,就必然会走向时序差分学习。”后来才发现,从动态规划的角度看同样说得通。这种统一让他感到欣慰:“人工智能、控制理论、神经科学这些原本截然不同的学科,正成功地走向融合。这就像终于触碰到了智能最根本的东西。”

对于无模型与基于模型的方法之争,Sutton认为两者都需要。“我们既希望直接从经验中学习,也希望间接从经验中学习。我们希望自己的经验能形成一个世界模型,然后利用这个模型来规划行为上的改进。”实现二者的统一,正是追求的“圣杯”。

在对话的最后,Sutton对中国的强化学习社区以及所有研究者表达了乐观的展望。他认为,得益于计算能力的普及,当下正是理解思维如何运作的绝佳时代。

“能生活在这样一个时代,实在太令人惊叹了。”他说道,“我们将能够设计出与人类自身一样强大、甚至可能更强大的智能体,这真的是一件无比激动人心的大事。”

他预见未来虽有挑战,但人工智能整体将是积极的,它将带来更深入的科学研究、更透彻的自我认知,并延续人类增强自身的历程。“电话增强沟通,眼镜增强视力,语言增强交流。人工智能实际上就是这一增强过程的延续。我们应当为从事这项工作而感到由衷的喜悦,并为了全人类的福祉去推进它的发展。”Sutton总结道。

来源:https://www.leiphone.com/category/ai/2roeBEayl5wf0mne.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

伯克利罗剑岚谈机器人革命:真实世界中的范式突破
AI
伯克利罗剑岚谈机器人革命:真实世界中的范式突破

伯克利团队研发的HIL-SERL强化学习框架,成功在现实世界中训练机器人完成主板组装等精密操作,仅需1到2 5小时训练,成功率即达100%。该研究突破了强化学习难以落地真机的传统认知,性能显著超越模仿学习方法,标志着真机强化学习领域的重要进展。

热心网友
05.16
上海AI实验室首创多视图强化学习训练法:让AI画师从单次学习进阶到多角度审视
AI
上海AI实验室首创多视图强化学习训练法:让AI画师从单次学习进阶到多角度审视

2026年3月,一项由上海AI实验室、上海交通大学及南洋理工大学等顶尖科研机构联合完成的研究,在计算机视觉与生成式AI领域取得了突破性进展。这篇发布于arXiv平台的论文(编号:arXiv:2603 12648v1),首次系统性地攻克了AI图像生成模型训练中的核心难题——“单一视角评判”瓶颈,并开创

热心网友
05.14
哈工大团队革新强化学习:AI导师边学边教告别盲目试错
AI
哈工大团队革新强化学习:AI导师边学边教告别盲目试错

这项由哈尔滨工业大学与小红书公司联合开展的研究,于2026年3月发表在arXiv预印本平台,论文编号为arXiv:2603 04597v1。对技术细节感兴趣的读者,可以通过这个编号查阅全文。 想象一下初学者如何掌握一项新技能:一位优秀的导师不仅会在学生犯错时指出问题,还会分享其他同学的成功经验和常见

热心网友
05.14
强化学习如何改变AI视觉推理马里兰大学研究揭秘
AI
强化学习如何改变AI视觉推理马里兰大学研究揭秘

这项由马里兰大学与阿联酋人工智能大学合作完成的研究,已于2026年2月发布在预印本平台arXiv上,论文编号为arXiv:2602 12395v1。它为理解AI如何“看”与“思考”提供了全新的视角。 如今,能够同时处理图像和语言的视觉语言模型正飞速发展。训练这类AI,就像教导一个孩子既要看懂图画又要

热心网友
05.14
强化学习在AI技术中的核心作用与应用价值解析
业界动态
强化学习在AI技术中的核心作用与应用价值解析

在人工智能技术日新月异的今天,强化学习作为一种核心的机器学习范式,正持续推动着AI向更高阶的智能水平演进。其核心在于,智能体通过与环境的持续交互与试错,自主习得最优的行动策略。那么,强化学习究竟在AI技术体系中扮演着哪些至关重要的角色?它又是如何赋能机器,在复杂多变的环境中做出更优决策的呢? 强化学

热心网友
05.13

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

问界M9保值率80.4%夺冠 2026年4月纯电车型保值榜
业界动态
问界M9保值率80.4%夺冠 2026年4月纯电车型保值榜

近日,中国汽车流通协会联合精真估发布了《2026年4月纯电动车型一年车龄保值率排行榜》。这份数据对于正在选购新能源车的消费者具有重要参考价值,能帮助大家更清晰地了解当前热门电动车的残值表现。 该榜单统计的是车龄满一年的纯电动车型。位居榜首的是问界M9,其一年保值率高达80 4%。这一夺冠成绩含金量十

热心网友
05.16
追觅Aurora Lux系列手机发布 29款奢华设计全解析
业界动态
追觅Aurora Lux系列手机发布 29款奢华设计全解析

科技行业近期迎来一场备受瞩目的创新盛宴。以智能清洁机器人闻名的追觅科技(Dreame),在旧金山隆重举办了“Dreame Next 2026”未来愿景发布会。活动不仅前瞻性地展示了涵盖智能手机、智能穿戴乃至概念电动车的全系列产品,更邀请到苹果联合创始人史蒂夫·沃兹尼亚克亲临助阵。这场为期四天的盛会,

热心网友
05.16
SpaceX最快下周披露招股书 6月初启动全球路演计划
AI
SpaceX最快下周披露招股书 6月初启动全球路演计划

SpaceX最快下周披露招股书,6月初启动全球路演,估值或达1 75万亿美元,募资规模有望创纪录。公司以垂直整合与成本控制为核心优势,布局商业航天、AI基础设施与卫星互联网,其“太空数据中心”构想融合太空太阳能与AI算力,开辟新赛道。此次IPO或引发科技板块资金结构性变动,标志资本正加速拥抱太空与AI融。

热心网友
05.16
NVIDIA扩展机器人微服务库加速人形机器人发展
AI
NVIDIA扩展机器人微服务库加速人形机器人发展

NVIDIA在SIGGRAPH上宣布扩展其微服务库,以加速人形机器人开发。其核心是将生成式AI深度集成至OpenUSD语言体系,推出相关模型与NIM微服务,从而提升数字孪生与机器人工作流效率。公司还开放了机器人技术栈,并联合合作伙伴推动OpenUSD的工业应用,为开发者提供从仿真到部署的端到端平台支持。

热心网友
05.16
OKX交易所安全性如何?资金风险与监管深度解析
web3.0
OKX交易所安全性如何?资金风险与监管深度解析

OKX作为全球领先的数字资产交易平台,其风险主要来源于市场波动、技术安全与合规环境。平台通过多重安全机制、资产储备证明和严格的合规流程来管理风险。用户需理解加密货币的高波动性本质,并采取自主保管资产、启用安全功能等策略,以在参与Web3生态时更好地保护自身权益。

热心网友
05.16