游乐游手机版
首页/业界动态/文章详情

图灵奖得主Sutton新作:AI的下一步走向生成认知

时间:2026-06-02 18:22
图灵奖得主Sutton与合作者批判主流AI依赖被动表征的局限,引入生成认知框架,强调智能源于具身主体与环境的持续互动。感知、行动不可分割,经验来自实时反馈,自主性需内在评估,具身性塑造认知。强化学习最接近该理念,但仍需演进。

今天我们来探讨一个技术深度较高的话题:人工智能究竟是否真正理解这个世界?

从大语言模型能够一次性处理数百万字的文本,到视频生成模型创造几乎以假乱真的画面,再到自主智能体(Agent)独立规划并执行复杂任务,再到视觉-语言-行动模型(VLA)与世界模型等概念逐渐触及物理世界的门槛——AI的能力边界正以肉眼可见的速度向外拓展。

模型迭代的节奏不断加快,行业内的每一条新闻都能引发广泛热议。在这种氛围中,通用人工智能(AGI)仿佛近在咫尺。

然而,一个根本性问题始终未得到真正解答:这些运行在服务器中的AI系统,是否真正“理解”了世界?换句话说,它们展现出的智能,与一个生物在真实物理世界中通过不断试错与互动所呈现的认知能力,是否具有本质上的同一性?

近期,学者Banafsheh Rafiee与强化学习之父Richard S. Sutton合作发表了一篇论文,对当前主流AI——涵盖大型语言模型、纯视觉模型乃至传统符号系统——所沿用的“被动表征”路线进行了系统性的反思与批判,并将认知科学中的“生成认知”(Enactive Cognition)框架正式引入AI讨论领域。

该论文的核心主张是:感知、认知与行动三者并非彼此独立的模块,而是相互建构、不可分割的整体。它探讨的核心问题是:AI应当如何从依赖静态数据的被动信息处理系统,进化为能够通过与环境的持续互动、在具身行动中不断获取经验的智能体。

论文标题:Toward Enactive Artificial Intelligence

世界本身便是其最佳的模型

当前相当一部分主流的AI发展路径,实际上仍然沿袭着一套非常经典的传统观念——表征主义。

在这个范式下,无论是早期的符号系统还是如今的深度学习模型,感知通常被理解为一种“先输入、再处理、后行动”的线性流程:系统先接收外部信号,随后将这些信号加工成内部表征,再基于这些表征进行推理与决策,最终输出一个动作。

简单来说,智能系统就像一个中央处理器,它需要在内部构建一个尽可能精确的“世界副本”。感知是否成功,取决于这个内部模型能否准确地还原外部现实。

然而,Rafiee与Sutton指出,这种思路本身存在根本性的局限。真实世界是开放、动态且无限复杂的。无论多有限的内部模型,都无法完整捕捉其全部状态。世界并非一组等待被编码的静态特征,而是一个会随着智能体的行动、上下文与互动历史不断变化的可能性空间。

因此,论文引用了机器人学家Rodney Brooks那句非常经典的名言:「世界本身就是它最好的模型。」

这句话的直接含义是:最可靠、最新鲜、最丰富的信息,并非存在于智能体内部,而是始终存在于外部世界之中。智能体不应试图用内部表征完全替代现实,而应始终与环境保持持续互动,在实时反馈中调整行动、校准预期,并在此过程中形成理解。

AI不仅要“看见世界”,更需“在行动中理解世界”

“生成认知”这一概念源自认知科学中的生成主义(enactivism)。其核心思想是:认知并非对一个预先存在的客观世界进行内部复制,而是在具身主体与环境的互动过程中被“生成”出来的。

它吸收了现象学、格式塔心理学和生态心理学的思想。现象学强调,感知并非在头脑中重建世界,而是主体在生活经验中直接与世界相遇;吉布森(Gibson)的生态心理学则提出了“示能”(affordance)这一概念——环境中事物的“可抓握”或“可攀爬”特性,取决于它具体身体能力之间的关系。

换句话说,世界并非以抽象特征的形式被动地呈现给智能体,而是在智能体能够采取的行动中才变得“有意义”。

将这些思想引入AI领域后,Rafiee与Sutton提炼出四个关键支柱:经验、感知与行动的不可分割性、自主性,以及具身性。这四个维度共同指向同一个判断:智能并非对世界的静态表征,而是在环境中行动、反馈和自我维持的过程。

经验

在生成认知的框架中,经验不等于数据。真正的经验来自于智能体与环境之间持续、实时、相互影响的互动。智能体并非被动接收已有数据,而是在行动、反馈、失败与修正中不断获得技能。

这揭示了当前主流机器学习的局限性。监督学习依赖于人类预先收集和标注好的数据,模型学到的其实是经验留下的痕迹,而非自身亲历的经验。相比之下,强化学习更接近生成认知的要求:智能体通过主动探索环境、接收反馈并调整策略,在互动中持续生成新的数据与新的能力。

一个真正自主的系统,不能永远依赖人类准备好的静态数据集,它必须能够通过自身经验不断扩展能力边界。

感知与行动的不可分割性

生成认知反对将感知与行动拆分成两个独立的模块。感知并非行动之前的准备环节——感知本身就是一种行动能力。

人类并非被动地接收画面。我们通过眼球、头部、身体和手部的运动,不断改变输入信息,从而判断空间、声音、纹理、物体的形态。感知并非被动等待外部信号传入再由大脑分析,而是通过有目的的行动去揭示环境的结构。

这一点对今天的视频生成模型尤为重要。纯观察系统或许能学会大量的视觉规律——比如预测物体运动,或红绿灯颜色变化的顺序。但这并不等于它真正理解了物理世界。一旦环境出现异常,这些模型往往缺乏主动干预、试错和纠正的能力。

生成认知强调的正是这一点:智能体不仅要能预测世界如何变化,还要能通过自己的行动去改变世界,并在反馈中形成理解。

自主性

生成认知认为,智能体并非简单响应外部刺激的机器,而是一个能自我组织、自我维持的系统。环境中事物之所以有意义,并非因为它们天然重要,而是因为它们关系到智能体自身的目标、需求和持续存在。

这意味着智能体需要拥有某种内在的成败标准。食物、障碍物、能量之所以重要,是因为它们会影响智能体能否继续行动、维持自身状态、完成目标。

从这个角度看,当前许多AI系统仍然缺乏真正的自主性。监督学习依赖外部标签,大语言模型主要是在模仿人类数据的模式,传统规划系统的目标也多由人类预先设定。强化学习虽然通过奖励机制引入了行为评估,但大多数奖励函数仍然由外部设计者指定,而非从智能体自身的自我维持过程中自然产生。

因此,当前AI距离真正的自主性,还有一段路要走。

具身性

生成认知的最后一个关键,是具身性。身体并非智能系统完成推理之后才拿来使用的执行工具,而是感知和理解世界的前提。

身体的形态、传感器位置、运动能力与行动方式,会直接决定智能体如何探索环境,也决定世界以何种方式对它呈现意义。同一把椅子,对人类来说是“可坐的”,对蚂蚁可能是巨大的障碍物,对机器人则取决于它是否有相应的高度、关节结构和控制能力。

这也解释了为什么许多主流AI仍然是“离身”的。它们可以处理海量的文本、图像和视频,却没有通过自身运动改变感知输入的能力,也无法在真实环境中主动探索和适应变化。

即使在机器人领域,很多系统仍然把感知、规划和控制拆成独立模块。身体只是执行策略的硬件平台,而非塑造认知本身的核心条件。

强化学习的下一步?

在经验、感知-行动、自主性和具身性这四个维度上,Rafiee与Sutton对当前AI范式给出了一个非常清晰的判断:主流AI——尤其是大语言模型和纯视觉模型——仍然主要停留在被动表征与模式预测的层面。

它们可以生成极其逼真的文本、图像或视频,也可以在复杂任务中展现出强大的推理与规划能力。但只要缺乏与环境的持续互动,缺乏基于自身行动后果的评估,缺乏真正具身的探索过程,它们距离“理解世界”就仍然存在关键差距。

相比之下,强化学习与生成认知之间存在更强的结构共鸣。强化学习强调行动、反馈、探索、适应和长期评估,这些特质使它成为当下最接近生成认知理念的AI分支。

但这种接近并不等于等同。当前的强化学习仍然存在三重不足:第一,奖励函数大多由外部指定,而非来自智能体自身的自我维持和组织结构;第二,感知和行动在许多系统中仍被拆分为相对独立的步骤;第三,具身性常常被当作工程约束,而非认知形成的基础。

因此,强化学习也需要进一步的演进:从外部奖励走向更内在的自我评估,从任务驱动走向持续生存与适应,从单纯优化策略走向真正的具身经验生成。

来源:https://36kr.com/p/3835601406997641
上一篇京东618开门红52小时战报 超2000品牌成交额翻倍 下一篇捷途5月销量4.56万辆 全球累计破236万辆 奇瑞集团
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
中关村论坛年会AI未来论坛聚焦跃迁投资共生
业界动态 · 2026-06-30

中关村论坛年会AI未来论坛聚焦跃迁投资共生

3月30日,中关村国际创新中心成为人工智能领域瞩目的焦点——2026中关村论坛年会人工智能主题日的重要活动“AI未来论坛:跃迁·投资·共生”在此正式拉开帷幕。本次论坛传递出一个清晰的信号:人工智能正从技术突破迈向产业落地的关键阶段,而资本信心的背后,映射出产业演进的明确风向。海淀区明确表态,将以开放

泰国CP AXTRA与菜鸟合作复制中国闪购模式
业界动态 · 2026-06-30

泰国CP AXTRA与菜鸟合作复制中国闪购模式

3月27日,菜鸟集团与泰国正大集团旗下核心零售企业CP AXTRA正式签署战略合作协议。此次合作的核心目标十分明确:菜鸟将充分发挥自身在数字供应链技术、仓储自动化领域的技术优势,以及多年深耕海外仓的运营经验,全力支持CP AXTRA在泰国及东盟国家打造一套线上线下一体化的即时零售物流网络。 CP A

云英谷科技VTDR6135参评SID中国区显示行业奖
业界动态 · 2026-06-30

云英谷科技VTDR6135参评SID中国区显示行业奖

云英谷科技携国内首颗支持1 5KRealRGB显示的AMOLED驱动芯片VTDR6135参评SID中国区显示行业奖。该芯片已量产并用于高端手机,采用28nm制程,支持240Hz刷新率,集成自研APDBI技术与烧屏补偿机制。在ICDT2026大会C06展位展示。

马斯克警告柏林工厂扩张受外部干预需保自主
业界动态 · 2026-06-30

马斯克警告柏林工厂扩张受外部干预需保自主

3月1日消息,特斯拉CEO埃隆·马斯克向柏林工厂的员工传递了一个信号:如果工厂无法在“不受外界干扰”的环境下自主运转,那么后续的扩建计划可能需要延后。这番话源自一段提前录制的视频,由马斯克在得克萨斯州奥斯汀与格伦海德工厂厂长安德烈·蒂里格共同完成录制,随后在柏林超级工厂内部播放给员工观看。 这段视频

高通钱堃博鳌谈构建用户中心智能生态
业界动态 · 2026-06-30

高通钱堃博鳌谈构建用户中心智能生态

高通钱堃指出,AI正重塑人机交互,2026年称为智能体之年。6G被设计为AI原生系统,2026年为标准化关键年,高通已与近60家伙伴达成共识。高通构建以用户为中心的智能生态系统,通过端-边-云协同架构,结合5G 6G技术,并推出AI加速计划,推动个人、物理、工业AI规模化应用。