世界模型五大门派，围攻光明顶

时间：2026-04-22 14:01

世界模型“五大门派”：谁在定义AI的下一站？最近AI圈的热钱，似乎都涌向了一个新方向。看看这几条密集的新闻：春节后，图灵奖得主杨立昆的新公司 AMI 拿了 10 3 亿美元融资，创下欧洲 AI 公司种子轮纪录； AMI 拿钱几周前，李飞飞创办的 World Labs 也宣布了 10 亿美元融资；

世界模型“五大门派”：谁在定义AI的下一站？

最近AI圈的热钱，似乎都涌向了一个新方向。看看这几条密集的新闻：

春节后，图灵奖得主杨立昆的新公司 AMI 拿了 10.3 亿美元融资，创下欧洲 AI 公司种子轮纪录；
AMI 拿钱几周前，李飞飞创办的 World Labs 也宣布了 10 亿美元融资；
本周早些时候，极佳视界获得数十亿元融资，估值超百亿；
昨天，阿里巴巴发布了世界模型「快乐生蚝」HappyOyster；
今天，群核科技在港交所敲钟。

这些看似分散的事件，实则指向同一个核心赛道：世界模型。

杨立昆曾有个引发热议的观点：「大语言模型在通往超级智能的路上是条死胡同。」这话乍听像是全盘否定，但加上“实现AGI”这个前提，细想却点出了一个关键瓶颈：ChatGPT能写代码能解题，却未必理解物理世界的基本规律。让它描述“苹果落地”，它能说得头头是道；但追问苹果为何落地，它可能只是在复述训练文本，而非真正“理解”重力。

问题的根源在于数据维度：大语言模型啃的是二维、离散的互联网文本，而真实世界是三维、连续且充满物理规则的。要让AI真正智能，就必须让它学会“理解”而不仅仅是“描述”这个世界。这，正是世界模型成为顶级实验室和资本下一个攻坚高地的原因。

不过，“世界模型”这个词眼下像个筐，大家往里装的东西却各不相同。有的在搞视频预测，有的在建3D场景，有的在搭仿真平台，还有的从神经科学找灵感……路线纷繁，共识未成。

Meta的研究科学家Zhuokai Zhao在社交平台上梳理了当前世界模型研究的“五大门派”，为我们提供了一份清晰的路线图。

这五条技术路径究竟有何不同？各自又押注着怎样的未来？下文将结合多方资料，为你逐一拆解。

JEPA 派：杨立昆的“抽象预测”哲学

JEPA，全称“联合嵌入预测架构”，是杨立昆力推的新AI范式。其核心思想颇具哲学意味：让AI像人类一样，通过“观察”来学习世界运行的抽象规律，而不是死记硬背每一个像素或单词。换句话说，AI无需记住每片树叶的位置，只需要理解“风会吹落树叶”这个因果规律。

在杨立昆看来，像Sora这类逐帧预测视频像素的模型，物理上就不可能完美——在一个充满随机性的世界里，精确预测每一片树叶的飘落轨迹是不现实的。JEPA的解法是“升维思考”：放弃在像素层面较劲，转而在一个抽象的“表征空间”里进行预测。

具体来说，先用编码器将视频转换成高维的数学表示（潜在空间），然后在这个抽象空间里预测“接下来会发生什么”。例如，预测“球会从桌上滚落”这一符合物理规律的事件结果，而非生成球滚落的每一帧具体画面。

这条路线的代表作是V-JEPA 2。这个拥有12亿参数的模型，基于100万小时无标签视频进行预训练。其惊人之处在于数据效率：仅需62小时的机器人实际操作数据，就能实现“零样本”动作规划。在陌生环境中操作陌生物体，成功率可达65-80%。相比之下，传统机器人学习方法往往需要数千小时的示范数据。

杨立昆的理念很明确：如果学到的“表征”足够好，就无需为每个新任务从头训练。当然，理想落地需要时间。创立AMI后，这位图灵奖得主也坦言，其商业化产品可能还需数年才能面世。但这并不妨碍资本反赌长线，AMI首轮超10亿美元的融资，几乎汇聚了所有你知道的业界与跨界巨头。

空间智能派：李飞飞的“三维重建”路线

如果说JEPA派关注“时间”维度的预测，那么李飞飞创立的World Labs，则选择了攻克“空间”维度。这两条路线的分歧，从底层逻辑就已注定。

JEPA认为智能的核心是在抽象层面进行因果推理，因此不执着于像素细节。而李飞飞团队的出发点不同：真正的智能需要对三维世界有“显式”的理解，包括几何结构、深度信息和物体间的空间关系。

打个比方：JEPA想教会AI“球会从桌上滚下去”这个规律；World Labs则想教会AI“桌子有多高、球在桌面什么位置、地板距离桌面多远”。前者关心事件逻辑，后者关心空间结构。

这种差异直接体现在产品上。World Labs于2025年11月发布的首款产品Marble，输入文字、图片、视频甚至粗糙的3D草图，输出的不是一个视频，而是一个可编辑、可导航、可导出的完整3D世界。用户可以旋转视角、移动物体、改变光照，并将结果导出为高斯溅射、三角网格或视频格式，直接用于游戏引擎或影视制作。

这里有个关键的技术细节：许多视频生成模型画面精美，但本质是逐帧“编故事”，帧与帧之间缺乏统一的3D结构支撑。而Marble生成的3D场景具备“空间一致性”，底层维护着一个真实的空间表示，因此视角转换后，世界依然稳固。

团队的基因决定了技术路线。联合创始人Ben Mildenhall是NeRF（神经辐射场）的发明者，另一位联创Christoph Lassner是3D图形专家。这使World Labs从一开始就走上了“显式3D重建”的道路。

2026年2月，World Labs完成10亿美元融资，投资方包括NVIDIA、AMD和Autodesk。Marble也已面向影视、游戏等商业场景开放。当然，它也有局限：生成的3D世界在连续探索后可能出现视觉变形或“幻觉”。这与JEPA路线形成对比：World Labs擅长重建空间的“样子”，但对空间中“会发生什么”的物理理解尚在初期。李飞飞将最终目标定义为“空间智能”，即AI不仅能看懂结构，还能在其中推理、规划和交互，这条路显然还很长。

学习型仿真派：DeepMind的“造梦”工厂

DeepMind的Genie 3，走的是一条更“魔法”的路线。它比“理解世界”和“重建空间”更进一步，目标是：直接制造一个足够真实、可实时交互的虚拟环境，让AI在里面“练级”。

输入“在暴风雨中的威尼斯运河划船”，它就能生成一个720p、24fps的3D环境。用户可以控制角色移动、操作物品、甚至改变天气。更关键的是，这个环境具有“对象持久性”：打碎的花瓶，碎片会留在地上，你离开再回来，它还在那里。

这对计算架构是巨大挑战。研究主管Shlomi Fruchter提到，要实现实时交互，模型需要每秒多次回溯查询一分钟前的信息。因此，Genie 3很像一个运行中的游戏引擎，但也常被误解为引擎替代品。事实上，它并没有硬编码的物理引擎，所有行为都是模型从数据中“学”出来的。这带来了灵活性，模型能自行推断物理规则；但也牺牲了精确性，其物理模拟不如传统引擎稳定。目前，其场景连贯性只能维持几分钟。

造出环境只是第一步，训练AI智能体则需要另一个工具：Dreamer。DreamerV4于2025年10月发布，是一个完全在“想象”（模型内部世界）中学习的世界模型框架。它成为首个纯靠离线数据就在《我的世界》中从零挖到钻石的AI。完成这个需要连续两万多次精确操作的任务，DreamerV4使用的数据量仅为之前顶尖模型的百分之一。

DeepMind的终极构想，是将“生成的环境”与“虚拟的智能体”结合，在虚拟但闭环的世界里训练AI。这条路线的核心假设是：即便像素级生成不等于物理理解，但只要环境足够真实多样，在其中练就的智能体就有可能泛化到现实。这是一个大胆且尚未被验证的赌注。

“卖水卖铲”派：英伟达的基建野心

前面各派追逐技术理想，但都绕不开一个现实：训练世界模型需要海量数据和算力。谁来提供这些基础设施？英伟达的Cosmos平台给出了答案：你们负责造梦，我来提供造梦的工具链。

Cosmos是一个系统工程。其数据处理管线Cosmos Curator，能在14天内处理2000万小时视频，将传统需要数年的流程极度压缩。视觉Tokenizer则将视频帧高效切分为可计算的表征，压缩率比业界方案高8倍，兼容多种视频格式。

最核心的是三个预训练模型家族：预测未来状态的Cosmos Predict、迁移仿真到真实的Cosmos Transfer、以及规划推理的Cosmos Reason。这些模型均免费开放，开发者可直接下载使用。

自2025年1月发布以来，Cosmos迭代迅速。小鹏用它做自动驾驶仿真，Figure AI等机器人公司用它生成训练数据。这背后仍是英伟达的经典策略：用免费开放的软件生态，锁定硬件护城河。使用Cosmos训练世界模型，最终离不开英伟达的芯片与CUDA生态。

黄仁勋在CES上的断言点明了其野心：世界基础模型之于物理AI，犹如大语言模型之于生成式AI。他押注的是，无论哪条技术路线最终胜出，开发者手中拿着的，最好都是英伟达的“铲子”。

主动推断派：来自神经科学的“异端”

并非所有玩家都遵循深度学习的主流范式。Verses公司代表的“主动推断”派，就是一个来自神经科学的“异端”。其首席科学家卡尔·弗里斯顿是“自由能原理”的提出者，该理论认为：所有生命体的行为，本质都在做同一件事——不断生成对外部世界的预测，并通过行动来减少预测与现实之间的误差。

这与主流AI的“强化学习”（追求奖励最大化）逻辑截然不同。主动推断追求的是“意外最小化”。简化来说，一个是“逐利”，一个是“避险”。

一个形象的比喻：强化学习像被胡萝卜引导前进的驴；主动推断则像在陌生城市探索的旅人，不断修正内心地图，让对下一个路口的预期更准确。前者由外部目标驱动，后者由内在的好奇与确定性需求驱动。

基于此，Verses开发了AXIOM框架。其首要特点是“对象中心化”：将世界建模为离散对象及其关系的集合，而非一个高维向量。这更接近人类认知——我们看到的是“椅子在桌子旁”，而非像素矩阵。

其次是采用“贝叶斯推理”：用概率分布表示信念，通过消息传递更新，而非梯度下降。这使得系统能坦然承认“不确定”。例如，仓库机器人遇到陌生物体时，知道自己“不认识它”，而不是强行将其归类并执行可能错误的操作。

去年6月，Verses在雅达利游戏的基准测试中，以远少于DeepMind DreamerV3的数据量，用1/8的步数完成了任务。更激进的是，AXIOM无需预训练，机械臂更换工具后能实时重新规划。其商业化产品Genius瞄准金融、机器人等领域，用于对不确定性建模。

正如AI批评家Gary Marcus所言，许多机器学习研究者对在模型中引入先验结构抱有“暴力的厌恶”，但Verses没有这个包袱。毕竟，生物智能经过数十亿年进化，其机制远非梯度下降可以概括。尽管短期内难以成为主流，但若世界模型真的需要更接近生物原理，这一派或许会后来居上。

写在最后

五条技术路线，从不同维度回应着同一个根本问题：世界模型究竟是什么，又该如何构建？它们并非彼此排斥，更像是在拼凑同一幅宏大拼图的不同部分。

世界模型在当下的爆发并非偶然。背后有几股推力：大语言模型遭遇瓶颈，边际收益递减，幻觉、推理与多模态理解仍是硬伤，资本需要新叙事；具身智能崛起，机器人、自动驾驶等领域亟需AI与物理世界交互，纯文本模型力有不逮；此外，高质量物理交互数据稀缺昂贵，在仿真中生成无限数据，被视作终极解决方案。

杨立昆曾断言，五年后无人会再用今天这样的大语言模型。此言虽显夸张，但对趋势的洞察不无道理：AI已“读万卷书”，接下来需“行万&里路”。而世界模型，正致力于成为它的眼睛、大脑与四肢。

至于五大门派谁将胜出，答案或许并不唯一。长远来看，融合与杂交可能是必然出路。毕竟，真正的智能，从来不止一种形态。

来源：https://36kr.com/p/3770602741269250

其他

上一篇1300亿，曝OpenAI花大价钱给英伟达找备胎 下一篇Claude Opus 4.7来了，公开模型里的SOTA，不过用起来GPT味好浓

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。