首页 游戏 软件 资讯 排行榜 专题
首页
AI
Yann LeCun斥像素重建弊端 携十亿资金离Meta证行业方向偏差

Yann LeCun斥像素重建弊端 携十亿资金离Meta证行业方向偏差

热心网友
63
转载
2026-05-14

在近期的一次深度访谈中,图灵奖得主、深度学习先驱杨立昆(Yann LeCun)再次提出了一个颠覆性的观点:“一个无法预测自身行为后果的系统,根本算不上真正的智能体。”这一论断直指当前人工智能发展的核心争议。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这已不是他首次挑战行业共识。此前那句引发广泛讨论的“大语言模型(LLM)是条死路”,正是出自这位AI领域的奠基者。他多次强调,现今所有主流的大语言模型都缺乏对物理世界的因果理解与行为后果预测能力,它们本质上是在复现训练数据中的语言模式,而非构建真实世界的内在模型。

更为关键的是,他将批判指向了生成式AI的基础范式:“基于像素重建的自监督学习方向是错误的。”他认为,无论是让AI逐像素预测视频下一帧,还是逐词预测下一个Token,这套方法论在应对无限复杂、充满不确定性的真实世界时,存在根本性局限。

那么,真正的出路在哪里?杨立昆全力押注了一条截然不同的技术路线:“联合嵌入预测架构(JEPA)比生成式模型更适合进行表示学习。”其核心是一个名为JEPA的框架——它从设计上就不直接生成像素或文本,而是在抽象的表示空间中进行预测与推理。

为了验证这条路径,他已离开Meta,并投入10亿美元创立了新的研究机构AMI Labs。这不仅仅是一场学术理念之争,更是一次用巨额资本和实际行动向现有技术范式发起的挑战。

AI的辉煌与歧路:当技术抽中大奖,却可能走错方向

有一种误解认为,杨立昆的离开是出于在Meta内部失势。但这低估了他一贯独立、前瞻的学术风格。正如他本人所言:“我不像一些追逐热点的研究者,我的选择基于长期的技术判断。”他的行动始终围绕着一个更宏大的智能愿景。

回顾AI发展史,这种“逆潮流而动”对他而言是常态。早在2015年,当整个业界为强化学习的突破而沸腾时,他就提出了著名的“智能蛋糕”比喻:智能的主体是自监督学习,监督学习只是糖霜,而强化学习不过是顶上的樱桃。当时这一观点备受冷遇,但十年后,以GPT为代表的自监督学习浪潮席卷全球,恰恰印证了他的远见。

如今,当全球资本和研发力量疯狂涌入大语言模型时,他又提出了一个更为终极的目标:构建能够理解并模拟物理规律的“世界模型(World Model)”。

图片

在他看来,当前AI与人类智能的核心差距在于物理世界的理解与预测能力。一个青少年仅需约20小时练习就能掌握安全驾驶的基本要领,而现有的自动驾驶系统即便被投喂数百万小时的视觉数据,仍难以实现可靠的L3/L4级自动驾驶。根本原因在于,人类天生具备对行为后果的直觉预测能力,而大语言模型仅仅掌握了语言层面的统计相关性。

因此,他发出了那个直指本质的质问:“我无法认同,一个不能预测自身行为影响的系统,能被称作真正的智能体。”尽管行业主流声音仍在强调“扩展定律(Scaling Law)的潜力尚未见顶”,并将“世界模型”的构想视为理论空谈,但杨立昆的整个研究生涯表明,他从不依赖外界的认同来指引方向。

生成式AI的固有缺陷:为什么AI生成的视频总是“模糊”的?

杨立昆与主流生成式AI路线的根本分歧,源于一段早期研究中的挫败经历。

在Transformer架构诞生之前,他和团队曾尝试过一个直观的思路:让AI观看视频,并像预测文本一样,逐像素地预测下一帧画面。然而,他们遭遇了一个无法解决的难题——无论模型如何优化,其生成的未来帧永远模糊不清,缺乏清晰细节。

图片

背后的原因其实清晰可循。他常举一个例子:在训练数据中,一个弹起的球可能向左运动,也可能向右运动。面对相同的当前帧,未来存在多种合理可能。如果模型被强制要求输出一个“确定无误”的像素级下一帧,其最稳妥的策略就是对所有可能性取平均——将向左和向右的画面在像素层面进行混合。其结果必然是一张模糊、发灰、细节丢失的图像。

这远非问题的全部。语言模型预测下一个词,只需从一个数万词汇的离散词表中做出选择。但一张高清视频帧包含数百万个像素,每个像素有256种可能的颜色值,这使得下一帧的可能性空间是一个天文数字,远超宇宙中的原子总数。你无法像为每个词设置一个“输出神经元”那样,为每一种可能的画面配置输出路径。

基于这些深刻的教训,杨立昆得出了明确结论:“像素级重建是一个错误的方向。”那么,AI模型是否必须是生成式的?他的答案是否定的。

他提出了一条新路径:放弃让模型猜测每一个像素。应该先让AI学会“抽象”和“理解”,在一个高维的表示空间里进行预测。因此,他彻底转向,其核心思想是让AI先学会“如何表示世界”,过滤掉冗余的感官细节,将视频帧压缩成蕴含语义的数学向量(即嵌入),然后在这个抽象的向量空间里捕捉真正重要且可预测的信息,例如物体的轨迹、速度和相互作用。

这就是JEPA(联合嵌入预测架构)的核心理念。与传统的生成模型疲于应付所有像素细节不同,JEPA专注于场景中那些稳定、可预测的抽象特征。其工作流程是:通过两个编码器,分别将当前帧和未来帧(或同一帧的不同视角)映射到表示空间,然后训练一个“预测器”,学习从当前表示预测未来表示的映射关系。

他有一个生动的比喻:训练一个模型逐像素预测行车记录仪视频,它会将大量计算资源浪费在预测路边树叶的随机摇曳上——这些是难以预测的噪声。而JEPA的思路是,只关注车辆、行人、车道线、交通信号等对决策至关重要的、具有规律性的高层次信息。

一场豪赌:押注一个避免“表示崩溃”的未来

JEPA的思想渊源其实有迹可循。杨立昆回溯了自己30年前在贝尔实验室的里程碑工作:孪生神经网络(Siamese Network)。该网络当时用于笔迹验证,它并不生成任何签名图像,而是比较两个签名经过编码后的向量相似度。它跳过了繁琐的像素级重建,直接学习抽象的特征表示。JEPA的思路与此一脉相承:先编码,再在表示空间进行预测和比较,绝不退回原始像素。

然而,这条道路布满荆棘,其中最棘手的一个挑战叫做“表示崩溃”。

图片

什么是表示崩溃?简单来说,如果你训练两个编码器,要求它们对同一张图片的不同增强版本(如裁剪、变色)输出非常相似的向量,模型可能会找到一个“作弊”的捷径:无论输入什么图像,都输出一个完全相同的常量向量(例如全零向量)。这样,相似度损失函数确实被最小化了,但模型根本没有学到任何有意义的特征,彻底失效。

早期的孪生网络依赖对比学习来防止崩溃,即同时使用正样本(相似对)和大量负样本(不相似对),迫使模型学会区分。但这种方法在扩展到大规模数据时面临严峻挑战:所需负样本数量巨大,导致计算和内存开销呈爆炸式增长。杨立昆指出,在最坏情况下,所需的对比样本数量可能与表示维度的指数成正比。

转机出现在2020年左右。他与博士后Stefan Deny共同提出了名为“Barlow Twins”的创新方案,其灵感源于神经科学家霍勒斯·巴洛在1961年提出的假说:生物视觉系统通过减少神经元响应之间的冗余信息来高效编码世界。这种方法巧妙地规避了表示崩溃问题。Barlow Twins在ImageNet图像分类基准测试中达到了73.2%的top-1准确率,比2012年开创性的AlexNet模型高出超过10个百分点。

此后,杨立昆团队又推出了更简洁的变体VicReg,效果同样卓越。而Meta巴黎的团队沿着这个方向持续迭代,最终推出了大名鼎鼎的DINO系列自监督视觉模型。

图片

2025年8月发布的DINOv3,在ImageNet上取得了88.4%的惊人准确率。其研究论文中有一句振奋人心的结论:这是自监督学习模型首次在图像分类任务上,与使用大量人工标注数据的弱监督乃至全监督模型性能持平。

更令人印象深刻的是DINO模型展现出的强大语义理解能力。例如,给定一张包含人手的图片,提取手部区域的嵌入向量,然后计算该向量与图像所有其他区域的相似度并进行可视化,DINO能够极其精准地将手部轮廓从复杂背景中分割出来。同样的方法应用于球体、猫咪或书本,都能获得清晰的对象分割图。这强有力地证明,模型在没有接受任何像素级标注的情况下,已经自发学习到了高质量的、对象级别的语义表示。

这些里程碑式的进展,让杨立昆更加坚信自己的判断:基于联合嵌入的自监督学习路径,比传统的生成式重建路径,更适合学习对物理世界进行高效、鲁棒的表示。

“做空”LLM的思考者:一场关乎AI本质的赌局

作为一位与当前行业热潮“逆向而行”的思考者,杨立昆说了一句在硅谷可能不太中听的话:“我无法理解,一个没有预测自身行为后果能力的系统,怎么能被称为真正的智能体。”

他并非全盘否定大语言模型所取得的巨大工程成就和应用价值,但他尖锐地指出:语言模型之所以能在文本领域取得突破,是因为语言本身是离散的、符号化的,一个有限的词表就能将其基本涵盖。然而,真实物理世界是连续的、高维的、充满不确定性的,没有任何有限的“词表”能够穷尽世界的所有可能状态。因此,将“下一个Token预测”这套在离散符号系统中成功的方法论,直接套用到对连续物理世界的建模上,在根本上是不匹配的。

历史仿佛正在重演。当年,所有人追捧强化学习时,他断言自监督学习才是基石,后来GPT的崛起验证了他的观点。如今,所有人都在疯狂投入大语言模型,他再次站出来,成为那个最著名的“唱反调者”。

但这一次,情况截然不同。他不仅押上了自己作为图灵奖得主的学术声誉,更押上了10亿美元的巨额资本。这不再仅仅是一场停留在论文和会议上的学术辩论,而是一场将深刻影响人工智能未来十年发展方向的终极豪赌。

来源:https://www.51cto.com/article/843007.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Meta员工抗议办公室鼠标追踪技术 美国多地爆发抗议活动
科技数码
Meta员工抗议办公室鼠标追踪技术 美国多地爆发抗议活动

近日,Meta在美国多个办公室的员工开始分发传单,抗议公司近期在员工电脑上安装鼠标追踪软件的行为。这一举动,将内部酝酿已久的矛盾推向了台前。 这些传单悄然出现在办公室的会议室、自动售货机甚至卫生纸架上方,内容直指公司的新政策,并鼓励同事签署一份在线请愿书。传单和请愿书均引用了美国《国家劳工关系法》,

热心网友
05.13
Meta巨额投入遇冷 AI行业将迎来理性发展新阶段
业界动态
Meta巨额投入遇冷 AI行业将迎来理性发展新阶段

最近,全球科技巨头Meta的一则消息,像一枚重磅冲击波,震动了整个科技圈和资本市场:他们不仅第三次上调了在AI领域的资本开支预算,更在财报发布后,导致公司市值单日蒸发了惊人的1 5万亿美元。 这不仅仅是Meta一家的“烦恼”,它更像是一声警钟,敲响了当前AI狂热投资的迷思。为什么这条新闻如此重要?因

热心网友
05.13
Meta斯坦福阿波罗计划揭秘:3B小模型如何击败7B视频大模型
AI
Meta斯坦福阿波罗计划揭秘:3B小模型如何击败7B视频大模型

这项由Meta GenAI与斯坦福大学联合开展的突破性研究,于2024年12月16日发布(论文编号arXiv:2412 10360v1),为我们揭开了视频理解大模型的设计奥秘,并推出了革命性的Apollo模型系列。 如果把AI理解文字和图片比作家常便饭,那么让它看懂动态视频,无疑就是烹饪一道工序复杂

热心网友
05.13
Meta推出AI代码分析新技术无需运行即可检测程序漏洞
AI
Meta推出AI代码分析新技术无需运行即可检测程序漏洞

2026年3月,Meta研究团队在预印本平台arXiv上发布了一项突破性研究(编号arXiv:2603 01896v1),旨在解决软件开发中的核心难题:如何在不实际运行程序的情况下,精准、高效地检测代码中的缺陷与安全漏洞。 设想你正在进行代码审查,面对两个旨在修复同一问题的补丁。传统方式是分别执行它

热心网友
05.13
Meta推出VecGlypher字体生成工具让电脑绘制矢量字体
AI
Meta推出VecGlypher字体生成工具让电脑绘制矢量字体

这项由Meta AI公司与加州大学圣克鲁兹分校联合开展的突破性研究,已于2026年2月在权威预印本平台arXiv上正式发布,论文编号为arXiv:2602 21461v1。 在当今数字世界,我们无时无刻不在接触各式各样的字体——从手机界面上的阅读文字到街头广告的醒目标语,每一个字符背后都对应着经过精

热心网友
05.13

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

马中新能源论坛探讨产业合作与人才培养新路径
科技数码
马中新能源论坛探讨产业合作与人才培养新路径

5月12日,马来西亚吉隆坡成功举办了一场具有前瞻性的行业盛会——中国-马来西亚电动汽车、电池技术与新能源人才创新发展论坛。来自两国政府部门、领军企业、顶尖高校及国际组织的代表共聚一堂,深入交流了在未来产业协同、清洁能源技术创新及高端人才培养等核心领域的合作路径与机遇。 马来西亚第一副总理兼乡村及区域

热心网友
05.14
智元APC香港观察:具身智能如何成为先进生产力单元
科技数码
智元APC香港观察:具身智能如何成为先进生产力单元

具身智能要迈过的第一道硬门槛,从来都是量产。 过去几年,全球人形机器人行业反复印证了这一点:舞台演示可以很快,工程验证可以很快,视频传播也可以很快。但当一台机器人要从实验室走向产线,再走向客户现场,问题的复杂度会呈指数级上升。 特斯拉的Optimus就是一个典型的参照系。马斯克多次表达过对Optim

热心网友
05.14
AI回答第一个字就暴露真假?识别AI胡说八道的关键信号
科技数码
AI回答第一个字就暴露真假?识别AI胡说八道的关键信号

向朋友问路时,如果对方清楚路线,通常会立刻回答“直走然后左转”。但如果对方并不确定,往往会先停顿一下,犹豫地说“呃……好像是……往那边?”。这个开口前的短暂迟疑,往往比最终给出的答案更能说明问题——对方是否真的知道答案。 近期,美国天普大学计算机与信息科学系的一项研究,正是捕捉到了AI回答问题时类似

热心网友
05.14
浙江大学万能分割学习器技术原理与应用场景详解
科技数码
浙江大学万能分割学习器技术原理与应用场景详解

这项由浙江大学、华南理工大学、南京大学和北京大学联合开展的前沿研究,于2026年4月正式发布,其论文预印本编号为arXiv:2604 24575。 图像分割技术听起来或许有些专业,但它早已深度融入我们的日常生活。无论是智能手机拍摄的背景虚化人像、AI系统在CT影像中精准勾勒病灶轮廓,还是自动驾驶汽车

热心网友
05.14
比亚迪大汉纯电续航1000公里对标56E车型参数曝光
科技数码
比亚迪大汉纯电续航1000公里对标56E车型参数曝光

“大唐”预售热潮尚未平息,“大汉”已蓄势待发,比亚迪王朝系列正以前所未有的攻势,叩响高端市场的大门。 在北京车展引发轰动的比亚迪大唐,预售订单已迅速突破10万台大关,彰显了市场对比亚迪高端产品的强烈期待。而最新信息显示,汉家族即将迎来一位重磅新成员——“大汉”,这款定位D级旗舰的轿车,目标直指20-

热心网友
05.14