LeCun与奥特曼达成共识承认AGI5到10年降临LLM注定死路一条

时间：2026-07-01 16:19

LeCun将AGI时间线修正为5到10年，但坚持大语言模型并非通往人类级别智能的路径。他提出JEPA架构，主张AI应通过自监督学习从视频中构建世界模型，具备系统2思维才能实现真正的智能。

近日，AI领域泰斗、图灵奖得主Yann LeCun修正了自己关于AGI（通用人工智能）时间线的预测，这一调整迅速在业界引发了广泛讨论与热议。

回溯至2023年12月，LeCun还曾信心十足地声称，达到人类级别的人工智能至少还需要10到20年的发展时间。然而，在最近的一次公开访谈中，他却将这一预期窗口大幅缩短至5到10年。这一显著转变，与他此前“永远差着10到20年”的保守论断形成了强烈对比，令众多AI从业者感到意外。

访谈主持人显然也捕捉到了这一关键变化，并直接追问：“您过去不是曾明确表示AGI距离我们还非常遥远吗？”对此，LeCun立即予以否认，并回应道：“不，我从未认为AGI是遥不可及的。”他强调，自己对于AGI发展时间线的预判，与OpenAI的Sam Altman、DeepMind的Demis Hassabis等业界领袖的看法在本质上并无根本分歧。他最终给出的结论是：AGI在十年内有很大概率成为现实，但绝不会在明年或后年就突然降临。

不过，尽管对AGI的到来时间有了新的判断，LeCun在技术路线上依然坚持其原有观点：当前主流的大语言模型（LLM）并非通往AGI的正确路径。他明确告诫业界，不能盲目迷信于“只要持续堆叠算力、疯狂扩充数据，AGI便会自然涌现”这一假设。他主张，我们真正需要的是像JEPA（联合嵌入预测架构）这样的全新体系——一个能够从周遭环境中主动学习、并能根据任务重要性规划行动序列的智能系统，而非当前LLM那种纯粹依赖“逐词机械生成”的模式。

简而言之，AGI的实现需要的是“系统2”思维（即深思熟虑、理性规划的能力），而现有的LLM仅仅停留在“系统1”层面（即快速直觉、无意识的应激反应）。LeCun所提出的“目标驱动人工智能”构想，正是“系统2”思维的典型实践范例。

网友们对LeCun的观点转变反应热烈。部分人调侃道，这可能是因为AGI的定义本身过于模糊，以至于无论怎么解释似乎都能自圆其说。其中，一条颇具讽刺意味的留言获得了广泛点赞：“估计是Meta内部有人找他谈话了。要想顺利拉投资，就不能再说什么‘AGI遥不可及’这种大实话，否则投资人根本没法被‘忽悠’进场。”

AI的核心问题：构建更卓越的世界心智模型

LeCun近日接受了由Nikhil Kamath主持的《People by WTF》栏目深度专访，在对话中分享了他关于人工智能底层逻辑的众多思考。他早年主修电气工程，随后转向数学、物理学以及AI领域更为根本性的课题。早在20世纪80年代，当他与数学教授合作开展独立项目时，便已开始接触计算机。如今，他已跻身于“深度学习三巨头”之列。

作为一名严谨的科学家，LeCun始终致力于构建能够解释世界运行因果关系的模型。在他看来，人类所面临的绝大多数问题，其根源都可以追溯到知识与智慧的相对匮乏。如果我们能够变得更加智慧，对世界的运作方式拥有更优的心智模型，那么我们就不太会像现在这样频频出错，而是能够做出更加理性的决策。

而AI的最终目标，正是为了放大和增强人类的整体智能。智能本身，可以被视为一种由大量简单单元构成、并通过彼此连接网络所涌现出来的复杂现象。早在四五十年前，科学家们就已经意识到，智能与记忆源于神经元之间连接强度的动态调整——大脑的学习过程，本质上就是对这些连接不断进行修正。随后，有人尝试利用电子电路来复现这一理论模型。

经典计算机科学的登场：启发式编程的探索

人工智能的发展主要沿着两条路径展开：其一是问题解决能力，其二是学习能力。后者在20世纪五六十年代曾取得过一些初步成果，但到了60年代末期却遭遇了重大挫折——当时构建的神经网络学习程序过于孱弱，无法制造出真正具备智能的机器。不过，这种思路却在模式识别等工程应用领域产生了深远且持久的影响。

在此背景下，启发式编程应运而生。机器学习最朴素的应用场景便是感知：例如，解释图像或解析声音。我们编写一个程序，让它在内部搜索可能的解决方案，并检查这些方案的合理性与适用性——这便是启发式编程的核心。但问题在于，所有潜在方案的组合数量通常庞大到令人咋舌，想要通过穷举法来一一搜索是完全不切实际的。以国际象棋为例，每一步棋造成的指数级变化迫使我们必须依靠启发式方法来剪枝，利用树搜索或专家系统来逼近最优的终局状态。

一个优秀的系统与一个糟糕的系统之间的根本区别，就在于它能否在不进行穷尽式搜索的前提下，高效地找到出色的解决方案。这一需求催生了“专家系统”——也就是所谓的基于规则的人工智能系统，它们与“搜索”这一核心概念紧密相连。

与此同时，有研究者提出了通过修改神经元连接强度的算法，使机器能够像人一样学习执行特定任务。世界上第一个这样的机器是“感知机”，它诞生于1957年。麻省理工学院教授Marvin Minsky与数学家Seymour Papert合著的《感知机》一书，论证了这种统计模型在现实世界中蕴含着巨大的潜力。然而，感知机存在一个致命的缺陷：它所能计算和表达的函数类型极其有限。例如，如果你给它一张自然图片，根本无法通过训练让它判断出“图中是否包含猫”或“是否有桌子”这类抽象概念。简而言之，这个系统不够强大，无法计算这么复杂的函数。

强化学习与自监督学习的崛起

进入20世纪80年代，神经网络与深度学习技术彻底改写了游戏规则。深度学习本质上是对传统神经网络的全面升级。其核心理念发生了根本性的变化：不再试图通过编写详尽的程序指令来告诉机器每一步该怎么做，而是让机器通过大量的数据训练来自主学习。在机器学习的家族中，还包括线性回归、分类树、支持向量机、核方法、贝叶斯推理等多种技术——但它们都遵循着一个共同的范式：构建一个尚未完成的“程序”框架，其中包含大量可调整的参数，系统的输入与输出均由这些参数所决定。接着，我们利用不断迭代优化的技术，从数据中训练这个系统：如果输出的答案不正确，就微调这些参数，使得下一次的结果能够更靠近那个正确的答案。

强化学习则略有不同：它并不直接给出标准答案，而是通过反馈告诉系统，它当前产生的结果是“好”还是“坏”。而在过去五六年里异军突起的“自监督学习”，已经成为推动聊天机器人和自然语言理解系统取得巨大成功的关键引擎。它更加接近于“监督学习”，但其关键区别在于，它不需要人工去逐一标注输入与输出之间的对应关系。例如，你不需要雇佣人手，让他们逐一检查数百万张图片并标注“这是猫或狗”，而只需要向系统展示一张狗的照片，然后对这张图片进行部分破坏（比如遮住一部分），再要求系统根据残缺的图像去努力恢复出原始完整的图像——这就是自监督学习的一种典型实现形式。

这种思路对于自然语言理解的成功至关重要。以当前的大语言模型为例，我们训练系统去预测下一个单词，但只允许它看到已经出现的上文。通过一种特殊的神经网络结构（如Transformer的注意力掩码），让用来预测的神经元只能访问当前词之前的内容，这样就无需手动干扰输入。最终，系统学会了根据上下文语境，精准地预测后续可能出现的词汇。Transformer架构的核心原理，就是让每一个输入元素都与序列中的其他元素进行相互比较，并据此生成不同的注意力权重。

反向传播算法与卷积神经网络的深化

反向传播算法的作用非常直观：当你向系统展示一张字母“C”的图像，并告诉系统这是“C”时，它会激活对应“C”的输出神经元，同时抑制代表其他字母的神经元。该算法能够精准地计算出如何调整网络中的各项参数，使得当前的输出更贴近预期的理想结果——这个过程通过向后传播误差信号，计算出每个权重对最终输出误差的敏感度，然后按照梯度方向调整权重，让那些带来“好”结果的连接得到增强，而使输出变“坏”的连接被减弱。

实际上，反向传播算法并非什么新发明，它早已存在多年，但起初并没有人意识到它能被有效地用于机器学习。直到80年代，它才真正在业界风靡起来。它之所以如此关键，是因为它一举打破了当年Minsky和Papert所指出的感知机所面临的局限，从而在学术界掀起了一波新的研究热潮。不过，这股热潮很快便冷却了下来，因为人们很快意识到了一个新的瓶颈：要训练这些深层网络，需要海量的数据——而在当时，互联网尚未普及，数据资源极度稀缺，计算机的计算速度也远远跟不上，人们对这项技术的兴趣迅速降温。

在80年代末、90年代初，LeCun开始思考如何让这种强大的学习系统更高效地识别图像。他从生物学中获得了重要灵感：通过模仿视觉皮层，以分层的方式组织神经元之间的连接，这样能使网络更容易找到图像识别任务中的优质解。这便是卷积神经网络（CNN）的起源。

卷积神经网络的设计灵感确实直接来源于生物视觉皮层。这类网络特别擅长处理自然界中产生的数据——例如，在一张照片里，相邻的两个像素，其颜色大概率是相同或非常相近的。图像、音频等所有自然信号都具备这种内在的结构相关性。如果能够以特定方式构建神经网络，充分利用这种空间或时间上的结构性，那么网络就能学得更快，而且所需的学习样本也更少。

“卷积”是卷积神经网络中的一个核心组件。其核心思想是：让一个神经元负责查看输入的某一部分特征，让另一个神经元查看另一个部分的特征，但这两个神经元可能计算的是相同的数学函数。然后，将这个具有相同功能的神经元复制，平铺到整个输入空间的所有位置上——这样，每一个神经元都负责检测输入某个局部区域的特定模式，整个网络相当于在输入的不同位置检测同一个模式。正因如此，当你移动输入图像时，相同的模式会被不同空间位置的神经元检测到，而网络的输出也会跟着发生平移——这就是所谓的“位移等变性”，也就是卷积操作的本质。

用LeCun自己的话来说，这些人工神经元之于真正的生物神经元，就好比飞机的机翼之于鸟类的翅膀——它们实现的功能类似，背后的物理概念也一脉相承。

AI捕捉到了语法的机器学习机制

香农提出的n-gram模型可以算作最早的语言模型之一。它可以在字符级别上良好运行，但如果切换到单词级别，问题就变得非常棘手了——因为现代英语中可用的词汇量可能有上万个。我们需要在一个超大规模的文本语料库上进行训练，并填充一个庞大的概率统计表。然而，一旦上下文的长度超过某个阈值，这种方法就会变得完全不切实际：存储这样一张巨大无比的表格需要海量的内存，而且这个表格会变得极度稀疏——即使我们拥有包含几十亿个词的训练文本，绝大多数的词组组合在语料中压根不会出现。

Transformer架构的出现，解决了这个问题。它能构建出一个强大的系统，根据给定的上下文词汇，精准地预测下一个词。当你把可访问的上下文长度扩大到几千甚至一百万个词时，这个系统就会涌现出一些非常有趣的性质。如果模型的参数规模达到数百亿，它甚至能够复述出解谜的答案，回答你可能提出的各种各样的问题——这个过程虽然主要是检索，但其中也包含了少量但并非不存在的推理成分。

真正令人惊讶的是，这些系统在操纵语言方面所展现出的能力令人印象深刻。人类在语言操控方面的能力其实相当有限，但AI似乎做得更为出色——它们仿佛成功捕捉到了语法背后隐含的机器学习机制。

大语言模型，并非通往AGI的康庄大道

在语言领域，由于下一个可能出现的词汇是有限的，我们可以高效地输出一个概率列表。但如果你想预测一段视频中接下来会发生什么，问题就变得完全不同了，因为视频帧中的可能性是无限的。一张普通的图像可能包含约一千个像素，每个像素又有红绿蓝三个颜色通道值，这意味着你需要生成三百万个数值——我们目前尚不知道如何有效表示所有可能图像集的全概率分布。这也正是许多研究者眼中AI领域所面临的下一项重大挑战。

如果从视频和图片中进行学习构成了AI发展的下一阶段，那么这种学习应该被放置在哪里？它能够被简单地融入当前大语言模型（LLM）的现有框架中吗？

答案是否定的。它与LLM的路径完全不同。这也是LeCun一直以来态度鲜明的原因：他坚信，大语言模型并非通往人类级别智能的可行路径。当前的LLM无法真正理解物理世界，也无法以现有的形式去有效应对现实世界的复杂性。虽然它们在文本处理和语言生成方面表现出类拔萃，但它们常常会犯一些极其愚蠢的错误——而这些错误恰恰暴露了它们根本不理解世界是如何运作的本质。LeCun直言：“我们至今没能构建出一个能理解基本世界常识的系统，而这些基本常识，甚至连你家的猫都能理解。”因此，LeCun一直毫不掩饰地表示：即便是最聪明的大语言模型，其“智慧”也不如你家的一只猫。

JEPA：LeCun心中理想的「世界模型」

接下来的挑战显而易见：如何构建一个能够通过观看视频来学习世界运行规律的系统？人类对世界的认识，尤其是在生命早期，很大程度上依赖于直观的观察。例如，牛顿的第三运动定律——你完全不需要读万卷书来学习它，一个婴儿，甚至一只猫，只要把东西从桌子上推下去几次，亲眼观察结果，就能自然地领悟到“高处的东西都会向下掉落”这一规律。

反观今天的大语言模型，它们被限制在离散的语言符号世界里，完全无法理解连续且高维的物理世界（比如视频中的动态场景和物体交互）。这种根本性的局限使得它们难以应对真实的物理世界问题——这也解释了为什么LLM能轻松通过考试、撰写论文，但我们至今仍然没有能够自如行动的家用机器人，L5级别的全自动驾驶也依然遥遥无期。

目前，LLM的记忆主要分为两种：参数记忆（从训练数据中学到的知识，但无法逐字复述原文）和上下文记忆（通过输入的提示词暂存信息，但容量和范围都极其有限）。一个真正理解物理世界的AI需要具备持久记忆的能力——就像人类大脑中的海马体一样，能够存储和检索长期有用的信息。但现有的LLM普遍缺乏独立的、结构化的记忆模块，也无法高效地搜索和评估多种可能的备选答案。

要实现这一宏伟目标，就需要全新的架构——彻底摆脱LLM那种自回归的生成方法，转而采用一种适用于视频数据的自监督学习范式。具体来说，就是让AI通过预测视频中接下来会发生什么，来学习世界底层的因果结构，而不是简单地逐像素生成每一帧的变化。这种强大的预测能力可以帮助AI构建一个内在的“世界模型”，从而为复杂的规划和推理提供支持。比如，AI可以预测推倒一个杯子、伸手抓取一个物体、提起重物等动作的结果，并评估这些结果是否能达成预定的目标。

回到“如何让机器通过观察世界来学习”这个核心问题上：很明显，不能仅仅依赖那种试图逐帧生成视频中每一个像素的生成式架构。LeCun领导的团队为此已经探索了将近15年，并在大约5年前提出了革命性的JEPA（联合嵌入预测架构）。

LeCun坚信，在AI的内部，必须存在一个能够反映外部世界运行规律的“世界模型”。他一直致力于开发一种类似大脑工作方式的AI架构，通过更真实地模拟现实世界来解决当前LLM普遍存在的“幻觉”问题、逻辑缺陷以及其他一系列局限性。要让AI的智力水平接近人类，它就必须像婴儿一样，通过感知和互动来学习世界的运作方式。他构想的世界模型由六个独立的模块组成：配置器、感知器、世界模型、成本模块、短期记忆和参与者。其中，世界模型模块是核心，它负责根据感知模块提供的输入信息，预测世界未来的走向——例如，预测一个人可能向哪个方向移动，前方的汽车是转弯还是直行。这个模型能够学习世界的抽象表示，只保留重要的细节，而忽略那些无关紧要的信息，并在与当前任务难度相匹配的抽象层次上做出精准的预测。

自2022年LeCun首次提出JEPA架构以来，其后续版本——I-JEPA（图像版）和V-JEPA（视频版）已经相继问世，并在实验中展现出了卓越的预测能力。有趣的是，Meta正式发布V-JEPA的那一天，恰好也是OpenAI推出其革命性的文生视频模型Sora的日子。

[论文地址：https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video/]

V-JEPA是一种非生成式模型。它的工作原理是，通过预测视频中被有意隐藏或遮挡的部分，在抽象的表示空间中进行学习。这与I-JEPA的思路类似——后者也是通过比较图像在抽象空间中的表示来学习，而不是直接在原始像素层面上进行比较。与那些试图逐像素重建每一个缺失区域的生成式方法不同，V-JEPA能够智能地舍弃那些难以预测或无关紧要的信息。这种策略使其在训练效率和样本利用率上实现了1.5到6倍的显著提升。由于完全采用自监督学习，V-JEPA可以依靠海量的未标注视频数据进行预训练，之后再通过少量的标注数据进行针对性的微调。

例如，当看到一段“将一张纸撕成两半”的视频动作时，V-JEPA能够准确地对这一过程进行抽象描述。再比如，当一段翻看笔记本的视频画面被部分遮挡时，V-JEPA依然能够对笔记本上可能存在的文字内容做出合理的预测。令人惊叹的是，这些强大的能力，是V-JEPA在仅仅观看了200万个视频样本后就自主获得的。

最后，总结成一句话：现有的大语言模型依然停留在“系统1”思维的阶段——表现为快速、直觉性的应激反应。而AGI真正需要的是“系统2”思维——即深度思考、理性分析和战略规划的能力。LeCun提出的“目标驱动人工智能”架构，正是基于这种“系统2”思维设计的：它能够从真实的物理世界中持续学习，并且具备进行分层规划和复杂任务拆解的能力。

来源：https://www.aiagiai.com/6232.html