首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
世界模型五大门派,围攻光明顶

世界模型五大门派,围攻光明顶

热心网友
45
转载
2026-04-22

世界模型“五大门派”:谁在定义AI的下一站?

最近AI圈的热钱,似乎都涌向了一个新方向。看看这几条密集的新闻:

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

  • 春节后,图灵奖得主杨立昆的新公司 AMI 拿了 10.3 亿美元融资,创下欧洲 AI 公司种子轮纪录;
  • AMI 拿钱几周前,李飞飞创办的 World Labs 也宣布了 10 亿美元融资;
  • 本周早些时候,极佳视界获得数十亿元融资,估值超百亿;
  • 昨天,阿里巴巴发布了世界模型「快乐生蚝」HappyOyster;
  • 今天,群核科技在港交所敲钟。

这些看似分散的事件,实则指向同一个核心赛道:世界模型。

杨立昆曾有个引发热议的观点:「大语言模型在通往超级智能的路上是条死胡同。」这话乍听像是全盘否定,但加上“实现AGI”这个前提,细想却点出了一个关键瓶颈:ChatGPT能写代码能解题,却未必理解物理世界的基本规律。让它描述“苹果落地”,它能说得头头是道;但追问苹果为何落地,它可能只是在复述训练文本,而非真正“理解”重力。

问题的根源在于数据维度:大语言模型啃的是二维、离散的互联网文本,而真实世界是三维、连续且充满物理规则的。要让AI真正智能,就必须让它学会“理解”而不仅仅是“描述”这个世界。这,正是世界模型成为顶级实验室和资本下一个攻坚高地的原因。

不过,“世界模型”这个词眼下像个筐,大家往里装的东西却各不相同。有的在搞视频预测,有的在建3D场景,有的在搭仿真平台,还有的从神经科学找灵感……路线纷繁,共识未成。

Meta的研究科学家Zhuokai Zhao在社交平台上梳理了当前世界模型研究的“五大门派”,为我们提供了一份清晰的路线图。

这五条技术路径究竟有何不同?各自又押注着怎样的未来?下文将结合多方资料,为你逐一拆解。

JEPA 派:杨立昆的“抽象预测”哲学

JEPA,全称“联合嵌入预测架构”,是杨立昆力推的新AI范式。其核心思想颇具哲学意味:让AI像人类一样,通过“观察”来学习世界运行的抽象规律,而不是死记硬背每一个像素或单词。换句话说,AI无需记住每片树叶的位置,只需要理解“风会吹落树叶”这个因果规律。

在杨立昆看来,像Sora这类逐帧预测视频像素的模型,物理上就不可能完美——在一个充满随机性的世界里,精确预测每一片树叶的飘落轨迹是不现实的。JEPA的解法是“升维思考”:放弃在像素层面较劲,转而在一个抽象的“表征空间”里进行预测。

具体来说,先用编码器将视频转换成高维的数学表示(潜在空间),然后在这个抽象空间里预测“接下来会发生什么”。例如,预测“球会从桌上滚落”这一符合物理规律的事件结果,而非生成球滚落的每一帧具体画面。

这条路线的代表作是V-JEPA 2。这个拥有12亿参数的模型,基于100万小时无标签视频进行预训练。其惊人之处在于数据效率:仅需62小时的机器人实际操作数据,就能实现“零样本”动作规划。在陌生环境中操作陌生物体,成功率可达65-80%。相比之下,传统机器人学习方法往往需要数千小时的示范数据。

杨立昆的理念很明确:如果学到的“表征”足够好,就无需为每个新任务从头训练。当然,理想落地需要时间。创立AMI后,这位图灵奖得主也坦言,其商业化产品可能还需数年才能面世。但这并不妨碍资本反赌长线,AMI首轮超10亿美元的融资,几乎汇聚了所有你知道的业界与跨界巨头。

空间智能派:李飞飞的“三维重建”路线

如果说JEPA派关注“时间”维度的预测,那么李飞飞创立的World Labs,则选择了攻克“空间”维度。这两条路线的分歧,从底层逻辑就已注定。

JEPA认为智能的核心是在抽象层面进行因果推理,因此不执着于像素细节。而李飞飞团队的出发点不同:真正的智能需要对三维世界有“显式”的理解,包括几何结构、深度信息和物体间的空间关系。

打个比方:JEPA想教会AI“球会从桌上滚下去”这个规律;World Labs则想教会AI“桌子有多高、球在桌面什么位置、地板距离桌面多远”。前者关心事件逻辑,后者关心空间结构。

这种差异直接体现在产品上。World Labs于2025年11月发布的首款产品Marble,输入文字、图片、视频甚至粗糙的3D草图,输出的不是一个视频,而是一个可编辑、可导航、可导出的完整3D世界。用户可以旋转视角、移动物体、改变光照,并将结果导出为高斯溅射、三角网格或视频格式,直接用于游戏引擎或影视制作。

这里有个关键的技术细节:许多视频生成模型画面精美,但本质是逐帧“编故事”,帧与帧之间缺乏统一的3D结构支撑。而Marble生成的3D场景具备“空间一致性”,底层维护着一个真实的空间表示,因此视角转换后,世界依然稳固。

团队的基因决定了技术路线。联合创始人Ben Mildenhall是NeRF(神经辐射场)的发明者,另一位联创Christoph Lassner是3D图形专家。这使World Labs从一开始就走上了“显式3D重建”的道路。

2026年2月,World Labs完成10亿美元融资,投资方包括NVIDIA、AMD和Autodesk。Marble也已面向影视、游戏等商业场景开放。当然,它也有局限:生成的3D世界在连续探索后可能出现视觉变形或“幻觉”。这与JEPA路线形成对比:World Labs擅长重建空间的“样子”,但对空间中“会发生什么”的物理理解尚在初期。李飞飞将最终目标定义为“空间智能”,即AI不仅能看懂结构,还能在其中推理、规划和交互,这条路显然还很长。

学习型仿真派:DeepMind的“造梦”工厂

DeepMind的Genie 3,走的是一条更“魔法”的路线。它比“理解世界”和“重建空间”更进一步,目标是:直接制造一个足够真实、可实时交互的虚拟环境,让AI在里面“练级”。

输入“在暴风雨中的威尼斯运河划船”,它就能生成一个720p、24fps的3D环境。用户可以控制角色移动、操作物品、甚至改变天气。更关键的是,这个环境具有“对象持久性”:打碎的花瓶,碎片会留在地上,你离开再回来,它还在那里。

这对计算架构是巨大挑战。研究主管Shlomi Fruchter提到,要实现实时交互,模型需要每秒多次回溯查询一分钟前的信息。因此,Genie 3很像一个运行中的游戏引擎,但也常被误解为引擎替代品。事实上,它并没有硬编码的物理引擎,所有行为都是模型从数据中“学”出来的。这带来了灵活性,模型能自行推断物理规则;但也牺牲了精确性,其物理模拟不如传统引擎稳定。目前,其场景连贯性只能维持几分钟。

造出环境只是第一步,训练AI智能体则需要另一个工具:Dreamer。DreamerV4于2025年10月发布,是一个完全在“想象”(模型内部世界)中学习的世界模型框架。它成为首个纯靠离线数据就在《我的世界》中从零挖到钻石的AI。完成这个需要连续两万多次精确操作的任务,DreamerV4使用的数据量仅为之前顶尖模型的百分之一。

DeepMind的终极构想,是将“生成的环境”与“虚拟的智能体”结合,在虚拟但闭环的世界里训练AI。这条路线的核心假设是:即便像素级生成不等于物理理解,但只要环境足够真实多样,在其中练就的智能体就有可能泛化到现实。这是一个大胆且尚未被验证的赌注。

“卖水卖铲”派:英伟达的基建野心

前面各派追逐技术理想,但都绕不开一个现实:训练世界模型需要海量数据和算力。谁来提供这些基础设施?英伟达的Cosmos平台给出了答案:你们负责造梦,我来提供造梦的工具链。

Cosmos是一个系统工程。其数据处理管线Cosmos Curator,能在14天内处理2000万小时视频,将传统需要数年的流程极度压缩。视觉Tokenizer则将视频帧高效切分为可计算的表征,压缩率比业界方案高8倍,兼容多种视频格式。

最核心的是三个预训练模型家族:预测未来状态的Cosmos Predict、迁移仿真到真实的Cosmos Transfer、以及规划推理的Cosmos Reason。这些模型均免费开放,开发者可直接下载使用。

自2025年1月发布以来,Cosmos迭代迅速。小鹏用它做自动驾驶仿真,Figure AI等机器人公司用它生成训练数据。这背后仍是英伟达的经典策略:用免费开放的软件生态,锁定硬件护城河。使用Cosmos训练世界模型,最终离不开英伟达的芯片与CUDA生态。

黄仁勋在CES上的断言点明了其野心:世界基础模型之于物理AI,犹如大语言模型之于生成式AI。他押注的是,无论哪条技术路线最终胜出,开发者手中拿着的,最好都是英伟达的“铲子”。

主动推断派:来自神经科学的“异端”

并非所有玩家都遵循深度学习的主流范式。Verses公司代表的“主动推断”派,就是一个来自神经科学的“异端”。其首席科学家卡尔·弗里斯顿是“自由能原理”的提出者,该理论认为:所有生命体的行为,本质都在做同一件事——不断生成对外部世界的预测,并通过行动来减少预测与现实之间的误差。

这与主流AI的“强化学习”(追求奖励最大化)逻辑截然不同。主动推断追求的是“意外最小化”。简化来说,一个是“逐利”,一个是“避险”。

一个形象的比喻:强化学习像被胡萝卜引导前进的驴;主动推断则像在陌生城市探索的旅人,不断修正内心地图,让对下一个路口的预期更准确。前者由外部目标驱动,后者由内在的好奇与确定性需求驱动。

基于此,Verses开发了AXIOM框架。其首要特点是“对象中心化”:将世界建模为离散对象及其关系的集合,而非一个高维向量。这更接近人类认知——我们看到的是“椅子在桌子旁”,而非像素矩阵。

其次是采用“贝叶斯推理”:用概率分布表示信念,通过消息传递更新,而非梯度下降。这使得系统能坦然承认“不确定”。例如,仓库机器人遇到陌生物体时,知道自己“不认识它”,而不是强行将其归类并执行可能错误的操作。

去年6月,Verses在雅达利游戏的基准测试中,以远少于DeepMind DreamerV3的数据量,用1/8的步数完成了任务。更激进的是,AXIOM无需预训练,机械臂更换工具后能实时重新规划。其商业化产品Genius瞄准金融、机器人等领域,用于对不确定性建模。

正如AI批评家Gary Marcus所言,许多机器学习研究者对在模型中引入先验结构抱有“暴力的厌恶”,但Verses没有这个包袱。毕竟,生物智能经过数十亿年进化,其机制远非梯度下降可以概括。尽管短期内难以成为主流,但若世界模型真的需要更接近生物原理,这一派或许会后来居上。

写在最后

五条技术路线,从不同维度回应着同一个根本问题:世界模型究竟是什么,又该如何构建?它们并非彼此排斥,更像是在拼凑同一幅宏大拼图的不同部分。

世界模型在当下的爆发并非偶然。背后有几股推力:大语言模型遭遇瓶颈,边际收益递减,幻觉、推理与多模态理解仍是硬伤,资本需要新叙事;具身智能崛起,机器人、自动驾驶等领域亟需AI与物理世界交互,纯文本模型力有不逮;此外,高质量物理交互数据稀缺昂贵,在仿真中生成无限数据,被视作终极解决方案。

杨立昆曾断言,五年后无人会再用今天这样的大语言模型。此言虽显夸张,但对趋势的洞察不无道理:AI已“读万卷书”,接下来需“行万&里路”。而世界模型,正致力于成为它的眼睛、大脑与四肢。

至于五大门派谁将胜出,答案或许并不唯一。长远来看,融合与杂交可能是必然出路。毕竟,真正的智能,从来不止一种形态。

来源:https://36kr.com/p/3770602741269250
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

最强祖师宗门灵兽饲养秘籍
游戏攻略
最强祖师宗门灵兽饲养秘籍

宗门灵兽完整养成指南:从入门到精通的全方位攻略 在宗门修仙体系中,灵兽不仅是并肩作战的强大伙伴,更是提升宗门整体实力的战略核心。然而,许多道友在成功获取灵兽后,常对后续的培养路径感到困惑。本指南将系统性地为你解析灵兽养成的完整体系,助你高效培育出能征善战、独当一面的专属灵兽,大幅提升宗门战斗力。 一

热心网友
04.22
书伴阅读如何投稿
手机教程
书伴阅读如何投稿

如何向书伴阅读投稿? 在阅读社群里分享自己的感悟、解读甚至是衍生创作,本身就是一件充满乐趣和意义的事。书伴阅读无疑是这样一个理想的分享平台。那么,如何才能让你的稿件成功登上这个平台,与更多同好者见面呢? 第一步:找准你的分享角度 动笔之前,先问问自己:你最想分享什么?是读完一本书后那股不吐不快的激动

热心网友
04.22
这城有良田琅嬛银香囊使用指南
游戏攻略
这城有良田琅嬛银香囊使用指南

琅嬛银香囊:队伍生存的关键拼图与能量引擎 在《这城有良田》的宝具体系中,琅嬛银香囊以其独特的定位脱颖而出。作为一件稀有品质的橙色宝具,它并非追求极致的伤害,而是专注于提升队伍的生存与节奏掌控能力。尤其当你的对手以远程攻击见长,或是你的阵容极度依赖主战宝具技能快速启动时,这件宝具的价值便会充分显现。不

热心网友
04.22
如何分析AWR中的Segment statistics_定位物理读最高的表与索引段
数据库
如何分析AWR中的Segment statistics_定位物理读最高的表与索引段

如何精准定位数据库I O瓶颈:优先分析AWR报告Segment Statistics章节的Physical Reads指标 第一步:聚焦 SEGMENT STATISTICS 中的 Physical Reads 排名 分析AWR报告时,应首先查看「Segment Statistics」章节。该部分默

热心网友
04.22
崩铁4.1版本隐藏乐谱成就解锁攻略
游戏攻略
崩铁4.1版本隐藏乐谱成就解锁攻略

崩坏星穹铁道4 1版本隐藏乐谱成就解锁指南 《崩坏:星穹铁道》4 1版本在“二次元jump”区域新增了两个隐藏成就——“乐园变奏:铁皮人”与“乐园变奏:百变狸猫”。这两个成就的解锁流程非常友好,全程无需战斗,只需找到特定音箱并输入正确乐谱即可。如果你还不清楚具体操作步骤,别担心,本攻略将为你提供详细

热心网友
04.22

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

腾讯:QQ 将全面接入微信小程序,建议开发者尽快迁移降低维护成本
手机教程
腾讯:QQ 将全面接入微信小程序,建议开发者尽快迁移降低维护成本

腾讯生态整合新动向:QQ全面接入微信小程序 7月1日,腾讯QQ小程序开发者平台发布了一项重要更新。核心内容是,为了帮助开发者降低双端开发与维护成本,QQ将全面接入微信小程序体系。这意味着,未来用户可以直接在QQ内搜索并打开微信小程序。 对于现有的存量QQ小程序,此次调整并未“一刀切”。它们目前仍可正

热心网友
04.22
天玑9600/9600 Pro双芯齐发:5GHz主频史无前例 硬刚高通骁龙8E6
手机教程
天玑9600/9600 Pro双芯齐发:5GHz主频史无前例 硬刚高通骁龙8E6

下半年芯片市场巅峰对决提前揭幕 今年下半年,全球芯片市场的战火将空前炽热。两位重量级选手——联发科与高通,已经准备好亮出各自的王牌。天玑9600系列与骁龙8E6系列,这两大迭代旗舰平台的正面交锋,注定会成为今年科技行业最值得关注的戏码。 双芯策略:精准卡位旗舰市场 有意思的是,联发科这次玩了个新花样

热心网友
04.22
微信好友申请为何能通过搜索qq号添加
手机教程
微信好友申请为何能通过搜索qq号添加

在当今数字化社交的时代,微信已成为人们日常沟通交流的重要工具。不少人都发现,微信好友申请居然可以通过搜索 qq 号来添加,这背后有着诸多有趣的原因和便利之处。 一、社交关系的延续与拓展 要知道,微信与QQ同属腾讯旗下,两者之间存在着千丝万缕的联系。很多用户的社交关系其实根植于QQ时代,那些好友列表里

热心网友
04.22
高德地图如何更改定位
手机教程
高德地图如何更改定位

高德地图如何更改定位?三种方法详解及注意事项 无论是日常通勤、外出旅行还是朋友相聚,高德地图已经成了我们依赖的“导航神器”,精准定位和路线规划是其核心功能。不过,现实场景有时会有点特殊——比如,你可能需要模拟一个位置来测试应用,或者在某个游戏中“签到”,又或者只是想和朋友开个无伤大雅的玩笑。这个时候

热心网友
04.22
巧学宝app如何绑定手机号
手机教程
巧学宝app如何绑定手机号

巧学宝App绑定手机号全程指南 在巧学宝App上完成手机号绑定,是解锁其完整功能的关键一步。这个看似简单的操作,能为你后续的学习之旅带来不少实实在在的便利。那么,该如何快速搞定呢?下面这张流程图,能帮你一眼看清完整的操作路径。 第一步:进入个人中心 首先,打开你的巧学宝App。进入主界面后,注意力可

热心网友
04.22