说起“世界模型”这个热门标签,恐怕是2025年以来AI圈子里最受关注、也最令人困惑的词汇之一。Sora问世时,OpenAI称之为“世界模拟器”;Genie让你在生成的画面中自由穿行,也被称作“世界模型”;机器人公司宣称自己在构建它,NVIDIA说Omniverse是它的基础设施,甚至连游戏引擎也被纳入了这个叙事体系。大家都在使用同一个术语,但各自所指的含义却截然不同。
近期,李飞飞在个人Substack上发表了一篇新文章,专门厘清这个概念。她采用了一个经典方法:回归到强化学习教科书中最基础的框架——POMDP闭环:智能体→动作→状态→观测→智能体。在此基础上,她指出当前被冠以“世界模型”之名的各类系统,实际上是该闭环的三种不同侧面投影。那些输出像素(观测)的是渲染器,输出状态的是模拟器,输出动作的是规划器。这个分类标准如手术刀般精准,核心判断依据就是系统的输出对应闭环中的哪个环节。

(来源:《麻省理工科技评论》)
她的判断同样发人深省。三者之中,渲染器的商业化最为成熟,但天花板也很明显——视觉精美并不等同于物理真实;规划器最令人兴奋,但目前距离实际部署也最遥远,实验室演示与真实应用之间的鸿沟依然巨大;而模拟器,则是被严重低估的关键枢纽。模拟器在几何、物理和动力学层面运作,既能向上投射为人类可感知的像素,也能向下推导出动作的后果供机器人使用。掌握了模拟能力,就等于同时拥有了渲染和规划的基础;反之则不然。
这篇文章自然也是World Labs的产品宣言。他们的Marble模型已经能够同时输出高斯泼溅和碰撞网格,试图将渲染器与模拟器融合在一个模型中。文章末尾描绘了一个统一的“世界基础模型”的终极愿景,它能够根据下游需求在渲染、模拟和规划之间自由切换。这个愿景能否实现尚待验证,但作为一套分析框架,渲染器/模拟器/规划器的三分法,确实有助于我们穿透当前“世界模型”概念中的大量噪音。
以下是全文的翻译。
“世界是所有发生的事情的总和。”
——维特根斯坦,《逻辑哲学论》,1921
世界并非由文字构成。
在之前的一篇文章中,我们提出空间智能是AI的下一个前沿,而世界模型是实现它的路径。现在,World Labs团队和我希望更深入地探讨:在当今被冠以“世界模型”之名的众多事物中,哪些功能模块真正构成了这种能力?它们各自的用途又是什么?
语言模型赋予了机器对概念、词汇和推理的强大掌控力,然而物理世界,无论是虚拟还是真实,都运行在完全不同的基础之上。语言模型学习的是文本的统计结构,而世界模型学习的是空间与时间的统计结构:光线如何落在物体表面,一个从未被相机拍摄过的花园在某个角度看起来是什么样子,物体如何响应力并遵循物理定律。
这使得“世界模型”成为当下AI领域最重要、同时也被滥用得最严重的术语之一。计算机视觉、机器人学、强化学习和生成式AI都声称在构建世界模型,但各自指向的却是截然不同的东西。一个能生成华丽却物理上不真实的火焰视频模型,一个能即兴生成可玩游戏的语言模型,以及一个忠实模拟燃烧过程的物理引擎,都被冠以同样的名称。
古希腊人从未就世界由什么构成达成一致,无论是火、水还是不可分割的原子,因为“世界”从来就不是一个单一的概念。它始终是思想家们为了推理某种总体性而使用的替代词。AI继承了同样的问题,而且恰好发生在这个领域最需要精确性的时刻。
分类法背后的闭环
要厘清这种混乱,可以从一张比上述所有技术都更古老的图表开始。所有强化学习教材,包括经典的Sutton和Barto,几十年来一直使用同一幅图的变体来描述智能体如何与世界交互。这幅图的正式名称是部分可观测马尔可夫决策过程(POMDP),而“世界模型”这个术语最初的定义就属于这一传统。
一个智能体(可以是人、机器人或软件系统)执行动作。这些动作会改变世界的状态。但智能体永远无法直接看到状态本身,它接收到的是观测:落在视网膜上的光子、传感器的读数、视频帧中的像素。新的观测引导出新的动作,循环往复。
“状态”这个词需要仔细拆解,因为它在不同领域的含义会有所偏移。这里所说的并非化学家的状态——固态、液态、气态的区别。而是物理学家和机器人学家的状态:对世界在某一时刻所发生的一切的完整描述,包括每一个物体、每一个位置、每一个速度、每一种属性。状态是世界的底层现实,原则上完备,但对于任何智能体来说永远不可直接观测。观测是智能体对这一现实的局部视角。动作则是智能体据此做出的回应。
这个闭环(智能体→动作→状态→观测→智能体)正是赋予“世界模型”这个术语其技术含义的结构。这个短语本身有更久远的历史,可以追溯到Kenneth Craik在1943年的提议,他认为心智通过运行现实的“小比例模型”来进行推理;到了1980年代末和1990年代初,这一概念被引入了神经网络领域。这个闭环同样解释了人们今天使用这个术语时的含义。现在被称为世界模型的各种系统,实际上是同一个闭环的不同投影,每一种输出的都是闭环中不同的组成部分。
世界模型的三种功能
第一种世界模型是渲染器。渲染器输出的是观测,具体来说是面向人眼的像素,最重要的品质指标是视觉保真度。一个将文本提示转化为电影级航拍镜头的视频模型就是渲染器;像Google的Genie 3或World Labs自己的RTFM这样的交互式系统也是渲染器,它们根据用户输入实时生成画面。这类模型不具备对三维结构的显式理解。它生成的是观看者会看到的画面,而不是事物本身的样子。航拍镜头里的建筑从空中看也许完美无瑕,但试着在城市里穿行,它们就会崩塌。
第二种是模拟器。模拟器输出的是状态:一种在几何、物理或动力学上忠实的世界表征,人类和计算机程序都能在其上进行计算和交互。渲染器的契约是纯视觉的,而模拟器的契约是结构性的,它要求几何经得起检验,物理遵循牛顿定律,动力学的行为符合物理法则的预期。模拟器同时服务两类用户。建筑师、设计师、电影人、游戏开发者等专业人士需要超越视觉可信度的准确性。强化学习智能体、机器人控制器、自动驾驶车辆等计算机程序则把模拟器当作训练场,在其中大规模地与世界交互,测试那些在现实中要么危险、要么昂贵、要么根本不可能执行的场景。
第三种是规划器。规划器输出的是动作。给定一个观测和一个目标,规划器回答的问题是:智能体下一步该做什么。在某种意义上,规划器是渲染器的逆过程。渲染器以动作作为输入、产出观测,规划器以观测作为输入、产出动作,从而闭合了感知-行动回路。视觉-语言-动作模型、基于模型的系统,以及新一波的世界动作模型,都是规划器的不同尝试:让系统能够在非结构化的世界中决定机器人应该做什么。
以上三个类别涵盖了当前实际在落地的大部分工作,它们之间的区分在实践中很有用。但这三个类别并非从根本上彼此割裂。它们共享同一套关于世界如何运作的底层知识:几何、物理、动力学。一个能从任意角度渲染一只杯子的模型,原则上也应该能模拟杯子被推动后会发生什么,并规划一只手去把它拿起来。越来越多最有意思的研究,正在有意识地模糊这三者之间的边界。

图丨三种世界模型(来源:Substack)
为什么模拟是关键枢纽
在三个类别中,模拟器受到的公众关注最少,却是三者中最重要的。这篇文章旨在纠正这种不平衡。
渲染器是目前商业化程度最高的。大量图像或文本转视频产品正在消费和企业市场快速扩张。Google的Nano Banana模型将渲染器级别的图像生成能力送到了可能数以亿计的用户手中。技术是实在的,市场也是实在的。然而渲染器优化的目标是视觉可信度而非物理准确性,这个天花板很重要。它们的输出很漂亮,但你不能用它们来设计一座建筑或训练一个机器人。
规划器是最令人兴奋也最不成熟的,它与快速演进的机器人学习领域密切相关。过去两年里,这个领域产出了不少在视频里看起来让人印象深刻的机器人演示,但我们需要坦诚地面对这些演示究竟展示了什么。几乎所有演示都局限于高度受限的实验室环境,物体种类有限,任务时长很短。没有一个经受过真实世界部署所要求的复杂度、多样性和持续时长的验证。从一段精彩的演示视频到一个能在厨房、仓库或手术室中可靠工作的机器人,中间的鸿沟依然巨大。
尽管如此,商业上的押注规模仍然可观。一波资金充裕的新进入者正在争相推出通用规划系统,而大型基础设施玩家则在将规划能力架设在更广泛的模拟堆栈之上。
模拟是连接两者的桥梁。如果说语言是对世界的抽象,像素是对世界的投影,那么几何、物理和动力学就是世界本身。模拟器必须在这个层面上工作:它是结构性的骨架,视觉表现(供渲染器使用)和动作后果(供规划器使用)都可以从中推导出来。
一个掌握了模拟的模型,能够将它的理解投射为供人类消费的像素,也能投射为供具身智能体使用的动作预测。而一个只掌握了渲染或只掌握了规划的模型,两者都做不到。这里的商业空间极其广阔。仅NVIDIA的Omniverse一项,其目标市场规模据该公司估计就超过万亿美元,涵盖工厂、仓库、供应链和数字孪生。机器人训练、自动驾驶测试、建筑可视化、工程设计、药物发现,全都依赖于某种形态的模拟。
这个领域最困难的开放性问题也集中在这里。带有显式几何、材质属性和物理标注的三维数据,比渲染器训练所用的互联网视频稀缺了几个数量级。sim-to-real差距(模拟中的物体行为与真实世界中的行为之间的差异)仍然存在。生成式模拟器在此基础上还引入了新的风险:AI生成的几何体可能看起来正确,但实际上包含自相交或错误比例的问题,导致物理模拟产生荒谬的结果。大规模的多物理模拟(刚体、可变形物体、流体、布料全部同时交互)的计算成本仍然比单一领域的模拟高出几个数量级。
在World Labs,Marble是我们在这个方向上的第一步。它接受多模态输入(文本、图像、视频或空间草图),生成可探索的3D环境,同时输出用于视觉探索的高斯泼溅和供物理引擎操作的碰撞网格。但Marble只是一段漫长弧线的第一章。随着渲染、模拟和规划之间的界限开始消融,整个领域都在书写这个故事。
边界正在消融,以及接下来会发生什么
当前这个领域最重要的趋势是,三个类别正在开始融合。背后的共识是:渲染一个世界、模拟它、在其中行动,所需要的知识在很大程度上是相同的。沿用前面的例子,一个真正理解杯子如何放在桌上的模型(它的几何形状、材质属性、对力的响应等等),应该能够从任意角度渲染这只杯子,模拟杯子被推动后会发生什么,并规划一只手去拿起它。三个类别是同一种底层理解的三种投影。
比如,最近已有少量但在增长中的工作来自不同的机器人实验室,它们展示了一种至少在概念上成立的可能性:一个预训练的视频渲染器可以作为联合世界预测和动作预测的骨干网络,让单一模型同时想象“会发生什么”和“该做什么”,从而在渲染器和规划器之间架起桥梁。World Labs的Marble已经能从单一模型同时输出高斯泼溅和碰撞网格,消解了渲染器与模拟器之间的边界。每一个层面都在从被动输出转向交互式系统:渲染器变得可以响应动作条件,模拟器生成的世界变得更加可控和可编辑,规划器开始进行审慎推理而不仅仅是做出反应。
逻辑上的终点是一个统一的世界模型:一个基础模型,能够渲染照片级真实的视图、生成物理上准确的结构、规划动作序列,并根据下游使用者的需求在不同输出模态之间切换。我们仍将面对一系列严峻的挑战。数据格局极不均衡,渲染器坐拥海量互联网视频,而模拟器和规划器则面临3D资产和机器人示范数据的严重匮乏。针对视觉美感的优化可能会牺牲机器人或高保真模拟所需的精度。在单一架构内调和这些张力,是当今世界模型研究的核心开放问题,也是World Labs在持续演进Marble的过程中致力于解决的。

(来源:Substack)
但大方向已经很清楚。从1980年代末至今,这个领域押的始终是同一个赌注:只要世界模型足够丰富,智能体看见世界、构建世界、在其中行动所需的东西就全在里面了。这个赌注如今正在驱动一整代人的研究。而真正给它加上砝码的,是已经在发生的融合:渲染、模拟、规划三条线,每条都已经各自撑起价值数十亿美元的产业,它们起初是独立的研究方向,现在开始汇到一起。当边界消失,三者合流将重新定义一件更大的事:机器智能与它所栖居的物理世界之间的关系,也就是空间智能的长远走向。
语言给了机器一种谈论这个世界的方式。世界模型,则是机器最终得以理解、想象、推理并与之交互的途径。
参考资料:
1.https://drfeifei.substack.com/p/a-functional-taxonomy-of-world-models
注:首图由AI辅助生成
