万字长文实录：RL 界与 CV 界的“世界模型”有什么不同？丨GAIR Live

时间：2025-09-08 18:37

世界模型在人工智能领域中扮演着重要角色，能够有效为智能体提供对复杂现实世界的内在表征，使其像人类一样理解世界运行的逻辑与因果关系，对自动驾驶、具身智能的突破性发展至关重要，它已成为学术界和工业界的研

世界模型在人工智能领域中扮演着重要角色，能够有效为智能体提供对复杂现实世界的内在表征，使其像人类一样理解世界运行的逻辑与因果关系，对自动驾驶、具身智能的突破性发展至关重要，它已成为学术界和工业界的研究热点。

2015年8月5日，(公众号：)、AI 科技评论 GAIR Live 品牌举办了一场主题为“世界模型——通向通用智能的关键拼图”的线上圆桌沙龙。

圆桌主持人为清华大学智能产业研究院（AIR）助理教授、智源学者赵昊，并邀请了宁波东方理工大学助理教授金鑫、浙江大学特聘研究员廖依伊、布里斯托大学助理教授杨梦月、伯克利人工智能实验室博士后研究员郑文钊一起进行了一场深度的讨论。

会上主持人赵昊带头讨论世界模型，先是探讨其定义、范围，接着分析强化学习界与计算机视觉界的世界模型的不同，随后围绕视频生成、三维重建等内容，剖析通用视频生成模型向真正的世界模型的发展路径，最后关注于落地场景，聚焦于自动驾驶以及具身智能，并探讨构建其世界模型的难点和方向。

其中，四位嘉宾围绕具身智能世界模型的构建分别提出了自己的独到见解：

郑文钊认为具身智能的问题与自动驾驶相似，未来应该实现重建与生成的结合、提升三维建模精度，以及更精准地判断因果性，使因果性与物理规律更好契合，但由于具身智能的数据稀缺，纯数据驱动很难训练出符合物理规律的世界模型，因此需要更好地建模物理规律，甚至将其“注入”模型。除了“真实到仿真再到真实”的路径，更优的方向可能是数据驱动与物理规律结合——探索如何通过某种方式将物理规律注入数据驱动模型，这可能是未来的趋势。

金鑫也表示物理规律、物理真实性（physical world intelligence）对具身智能的世界模型很重要，探索方向不仅依赖数据驱动，还借鉴了传统仿真领域的经验，结合图形学中的物理建模方法（如杨氏模量、弹簧 - 质量模型等基于规则的物理仿真）与数据驱动的生成模型（如AIGC生成模型），希望让具身智能的世界模型既能保证物理真实性，又能实现外观真实。

杨梦月则提出了她自己的思路，在具身场景中，通过某种机制或智能体捕捉物理规律，将其整合成因果模型，再利用该模型进行反事实预测或推断。最后廖依伊对金鑫和郑文钊的观点表示赞同，还发出了路线选择的疑问，她认为核心问题在于：是否必须显式建模3D？在2D层面能否学好交互？若有足够训练数据，2D学习交互可能更简单——比如叠衣服、泥巴落地等非刚性物体场景，在3D中建模难度极大。如何做好2D与3D的结合，仍是难题。

以下是此次圆桌讨论的精彩分享，AI 科技评论进行了不改原意的编辑整理：

一、如何定义世界模型？

赵昊：大家好，欢迎来到本次线上研讨会。我们将围绕“世界模型——通向通用智能的关键拼图”这一主题展开讨论。我是赵昊，此前曾在北京大学和英特尔研究院工作，目前任职于清华大学智能产业研究院（AIR），主要从事计算机视觉、图形学与机器人的交叉研究。世界模型作为串联这些领域的核心技术，我对其始终秉持坚定的信念。

在正式开始前，我想先界定一下世界模型的范畴。从最狭义的角度来看，是自动驾驶领域的世界模型，这也是目前研究较多的方向；进一步拓展，则是具身智能的世界模型；再往上，第三层可涵盖通用视频生成或传感器生成模型；而最广义的层面，我认为是训练智能体的世界模型。

今天参与讨论的几位老师虽多来自计算机视觉领域，但考虑到AI科技评论的广泛视野，我们的讨论范围应当进一步扩大。尽管部分领域，如自然语言处理（NLP）、智能体（Agent）等，我个人并非深耕其中，但既然举办此次线上研讨会，就应当拓展讨论边界，最终聚焦到第四层级的核心议题——通用智能如何在世界模型中诞生。

当然，考虑到今天受邀的几位老师多具备计算机视觉（CV）背景，我们的讨论可以从自动驾驶领域切入，再逐步向外延伸。毕竟不同领域的科学原理在本质上存在共通之处。

金鑫：谢谢赵老师的开场。大家好，我是金鑫，目前任职于宁波东方理工大学信息学部。宁波东方理工大学是一所新型研究型大学，目前正在全球范围内广纳贤才。

我是中国科学技术大学博士，研究方向包括空间智能及世界模型相关工作，一直与赵老师团队合作推进自动驾驶相关研究，涉及基于 Occupancy-based 的生成等方向等等。

廖依伊：大家好，我是浙江大学特聘研究员廖依伊。我的求学和工作经历如下：我在浙江大学获得博士学位，在德国马普所从事博士后研究，所在组是搭建KITTI数据集的Autonomous Vision Group，在组里期间我主导了KITTI-360数据集的构建工作，所以开始涉足自动驾驶相关研究。围绕世界模型的方案，我们做了街景重建与生成。

我们近期研发的HUGSIM是一款基于3D高斯的仿真器，能够与自动驾驶算法实现互动。正如赵老师所说，这属于狭义的世界模型研究。今天非常期待能与各位老师探讨，从狭义到广义的世界模型发展。

杨梦月：我是杨梦月，去年10月加入布里斯托大学担任助理教授，之前在UCL攻读博士学位，导师是汪军教授。我的研究方向最初是因果表征学习，后来结合强化学习（RL）相关内容，近期转向世界模型研究，尤其聚焦于世界模型对世界规则的理解。我的研究方向可能不太偏向CV，更多侧重于因果理解和表征学习。

郑文钊：我是郑文钊，目前在伯克利人工智能实验室从事博士后研究。我本科和博士均毕业于清华大学，本科就读于物理系。博士期间，我主要从事相似性度量等基础研究，后期也涉足自动驾驶领域。我们始终坚持基于世界模型的自动驾驶，之后也会将世界模型拓展至更通用的智能领。

赵昊：接下来我们正式进入讨论环节。开头的这两个话题，我想把我们讨论的世界模型的Scope变得更大一点。

刚刚结束的智源大会也让我学到了很多新知识。我个人主要是做 CV 的，CV 领域长期以来的观点是通过重建物理世界、再做仿真和渲染来构建世界模型，但在这次大会上，许多 senior 学者从更抽象的角度看待世界模型，将其视为通向通用智能的关键拼图。尽管我们可能从自动驾驶汽车、机器人的角度出发，但第一部分，我想从更通用的人工智能角度来思考这个问题。

GPT为代表的LLM无疑是当前人工智能领域的典范，但它也面临一些问题。首先是数据短缺，数据耗尽后GPT的发展可能会停滞；其次，GPT距离通用智能还有差距，它存在一些无法完成的任务。在智源大会上，我发现许多通用人工智能研究者也在关注世界模型，尽管他们心中的世界模型可能与我们 CV 领域狭义的虚拟世界模型不同，但他们都畅想，未来像GPT这样的Agent能够在真实物理世界中不断探索学习，从而实现通用人工智能。这是一个bigger scope。

我们可以将范围稍作限制，聚焦于LeCun团队的世界模型研究，如JEPA、V-JEPA等，这些研究更grounded，方便我们展开讨论。

经常有人问我，CV 所做的视频生成、三维重建等世界模型，与LeCun所说的通用世界模型有何区别与联系。二者确实存在较大差异。了解LeCun学术流派的人知道，他创办ICLR会议的核心关注点是表征学习。他所研究的世界模型更多是一种能够表达和预测世界的通用表征思路，这种思路也更易被不具备太多三维视觉知识的通用人工智能研究者所理解。所以，我想从最宽泛的表征学习视角出发，听听大家的看法。我随机点一位，有请杨老师。

杨梦月：我一直从事表征学习相关研究。在我看来，CV 与表征学习之间存在gap。表征学习的本质是理解图像或视频背后的构成的factor。图像和视频是高维空间的表现，而控制这种表现的其实是低维feature space（特征空间）中的特征。

我们可以有多种方式来表示特征空间，例如大模型的embedding（嵌入）是一种表现；我们也可以将特征空间完全可解释化，明确某个具体嵌入所对应的物理概念和语义含义。

当前大模型的训练方式本质上是对数据的模仿，并不关注表征学习层面，因此可能仅学到数据表面的样子，容易出现“幻觉”问题，无法真正理解世界正在发生的事情，也不清楚自身行为及其可能导致的结果。

表征学习更偏向于可解释的范畴。也就是说，我们希望Agent是真正理解世界背后的规则，——这个世界由哪些factor构成，这些factor之间又存在怎样的关系。一旦理解了这些，智能体在做决策时，就不会仅仅基于像素级的图像进行预测并以此决策，而是通过理解事件背后的逻辑来行动。例如，知晓两个因素之间的关联：当机械臂要将小球运到终点时，有两种选择——推球或者抓球。若它掌握了物理规则，就会知道当地面摩擦力较高时，推球并非最佳选择，转而选择抓起小球直接送至终点，从而达成目标状态。

世界模型的定义一直较为模糊，视频生成、VLA乃至空间智能等相关技术都被笼统地归为世界模型范畴。但现在越来越多的研究者认为，若要让智能体真正具备决策能力，必须让它理解世界的运行逻辑，否则决策可能因“幻觉”失效，尤其在高安全性场景中，看似无害的动作可能导致一些比较危险的状态。

因此，要实现通用智能、让智能体理解世界，还是要走表征学习的路子。表征学习包含多种技术，我们所研究的因果分析便是其中之一。这种技术不仅关注factor间的相关关系，更着重探究因果关系，而掌握因果关系能帮助智能体做出更优决策。以上就是我的观点。

赵昊：杨老师的观点很有意思，即当前的表征可能只有correlation，而缺乏因果关系，这确实是值得深入研究的方向。那么，杨老师认为完整的三维或四维世界表示作为一种factor表示方式，是否是必需的呢？

杨梦月：我认为构建3D或4D表示是一种新视角，对帮助到智能体理解世界，但它们之间的联系还需进一步探索，目前这方面的研究还比较匮乏。

在世界模型层面，我们通常对其有明确的界定标准。普通的预测模型（比如视频生成过程）往往是基于当前状态预测下一个状态，而世界模型要有智能体交互的属性。具体来说，能被统称为世界模型的模型，其逻辑应该是“当前状态 + 智能体动作”通过模型函数映射到“下一状态”。这里的动作既可以是显性的，也可以是隐性的，关键是模型要能明确回答“当前采取某动作后，下一步会呈现什么状态”。

按照这个定义，当前的 3D、4D 生成技术虽然实现了对世界的重建，但尚未充分融入动作因素，也没有考虑到动作对空间内部各因素相互作用的影响，因此与严格意义上的世界模型仍有差距。

当然，目前世界模型的定义还比较宽泛，但如果要进一步明确其核心内涵，就必须在模型中构建交互层面的建模，这是不可或缺的关键环节。

赵昊：我完全同意。我们CV领域的研究者常常关注传感器数据的渲染质量，却不太重视交互输入，这是我们领域存在的一个较大问题。不过，目前在自动驾驶和机器人领域，已有不少视觉模型研究引入了动作因素。

听到杨老师的观点，她认为我们当前研究的最大问题是缺乏动作因素，我自己也意识到了这一点。我也分享一个观点：我们真的必须依赖3D表征吗？看起来3D表征并非在所有场景下都是必需的，比如我们根据牛顿定律建模了以后，模型就可以根据物理规律来运行输出，这就不需要表征学习。但是物理规律也可能失效，比如现在有了极限情况，你必须引入相对论来修正。

我们计算机视觉和图形学领域的研究者可能存在一种幻觉，认为只要重建并仿真世界，就能完全掌握其规律，但物理模型永远不可能达到完美。所以从宏观意义上看，或许完全数据驱动的表征学习反而是更正确的路径。这一点我想听听郑文钊的看法，因为我知道他有些论文仅在占用率（occupancy）层面开展研究，不会对传感器数据进行真实渲染。

郑文钊：谢谢赵老师。我接着刚才的话题谈谈我的观点。如前所述，狭义的世界模型是对环境的建模，核心是接收智能体的交互动作作为输入，并输出对应的反馈。

我们早期基于占用率的世界模型研究中就引入了action，当时我们认为世界模型不仅要对行为做出反馈，还应输出动作，因此在论文中将其定义为“泛化的世界模型”，但这一观点在审稿人中存在争议。直到现在，大家对世界模型的定义仍有分歧：它仅仅是对世界环境的建模并提供反馈，还是需要包含对世界运行规律的自主建模？

但我认为，若要迈向通用智能，世界模型的定义必须更泛化一些。这也是我认同LeCun观点的原因，他所强调的世界模型偏向通用范畴。从LeCun对智能系统的描述来看，其中包含世界模型、记忆模块、行为模块等，分别对应空间智能、行为智能等能力，可见世界模型在通用智能中扮演着重要角色。

尽管存在争议，但从宏观角度而言，我们的核心目标是结合动作对环境进行建模。接下来我想谈谈世界模型与表征的关系：世界模型在某种程度上是更具泛化性的语言模型。大语言模型的核心范式是next token prediction，当然现在有一些不同的语言模型并非采用这种范式。语言并不是数据驱动学习到的表征方式，它是人类通过数千年文化历史凝练而成的对世界的描述，是人类定义好的认知框架。从这个角度来看，语言模型其实也是在预测未来会发生什么。

除了语言之外，是否存在其他更完备、更细节的世界表征方式？这也是我认为世界模型能成为比大语言模型更通用的基础模型的原因——如果CV领域未来会出现类似大语言模型的核心模型，其形态很可能是世界模型，而其中最核心的就是表征的选择。在NLP中，表征选择很直接，就是语言本身。但在视觉领域或更通用的场景中，表征选择需要更深入的考量：可以选择像素，但像素仅能反映二维空间信息；我们之前的研究选择占用率作为表征，因为世界本质是三维的，可以称为三维空间中的“像素”，类似于体素（Voxel），能更底层地描述三维空间。

不过，是否存在更高层次的表征？这也是LeCun团队的研究方向。我推测他们可能认为仅在像素空间建模不够完善，更倾向于类似大语言模型选择语言模态的思路——在视觉领域选择更合适的表征。例如JEPA、V-JEPA通过自监督学习提取特征，而他们最近发布的DINO-World，则选择DINO作为世界表征，因为DINO本身已包含对世界的语义提取。这些思路的共性是：世界模型的表征未必局限于像素，完全可以是更高层次的feature。

因此，若要将大语言模型的范式泛化至通用智能，世界模型是核心路径，而表征选择是关键。像JEPA、DINO等模型在语义描述上表现出色，但一个理想的世界模型表征还需具备其他特性：一方面要能对世界进行抽象的语义描述，另一方面要具备三维建模能力。因为我们所处的世界是三维的，未来迈向通用智能的话，要把三维空间最本质的东西建模出来。

廖依伊：我非常赞成郑老师刚才的观点。不同的世界模型，包括LeCun提出的世界模型，我们基于纯视频生成的世界模型，核心区别其实在于对“x”的定义。正如杨老师之前强调的，如果我们将世界模型定义为“当前状态x(t) + 动作a(t) → 下一状态x(t+1)”的映射关系，那么它们的核心差异就在于如何定义“x(t+1)”这个输出目标。

以视频生成为例，我们并非直接在像素空间操作，而是在潜空间（latent space）中进行，比如VAE的潜在空间。但VAE的潜在空间设计目标是服务于像素解码，因此未必能充分学习到语义信息。这也是郑老师提到的JEPA、V-JEPA及V-JEPA 2等工作的价值——它们通过自监督学习，目标是获取更具语义的特征。

LeCun在V-JEPA 2中的思路也是如此：先通过无监督学习得到潜空间，再引入动作监督进行post training，最终将其转化为世界模型。可见在这一框架下，表征学习与世界模型是相辅相成的：良好的表征学习是构建高性能世界模型的基础。

一个值得探讨的问题是，语义更丰富的世界表征是否更合理？从直观上看，若潜空间的特征能实现更好的解耦并蕴含更丰富的语义，后续的世界模型学习确实会更高效，这一点我非常认同杨老师的观点。

关于是否需要引入3D建模，我的看法是：如果仅考虑最简单的动作场景——即自身的刚性运动（rigid motion）（比如相机位姿变化），那么 3D 重建本身就能发挥重要作用。在 3D 重建任务中，一旦完成建模，就相当于将动作因素（这里的相机位姿变化）从状态中完全解耦出来。这意味着我们无需再通过学习的方式额外建模相机位姿，而是可以直接基于新的视角进行渲染，这与杨老师提到的“潜空间中可解耦因素”的思路是一致的。因此，3D 建模的一大优势在于能够显式地将这类可解耦的因素（如相机位姿）完全解耦。当然，对于一些难以解耦的复杂特征，仍然可以保留。

赵昊：廖老师说得非常好。我一直在思考，尽管潜在向量没有显式的3D信息，但作为一种抽象表征，或许能找到其与物理属性的关联。比如512维的token中，某些维度可能对应材料属性，某些对应几何结构，甚至可能包含表达复杂运动的向量。这是一个很有潜力的研究方向。

不过关于是否引入3D信息，核心争议在于“是否让模型更好学”。廖老师的思路是引入3D表征，让剩余维度专注学习物理建模难以覆盖的复杂特征，这很合理。但也有学者持不同观点，比如彭老师推崇large view synthesis network，认为未来无需依赖3D归纳偏置。这个话题比较专业，我们先从更宏观的层面继续讨论。有请金老师分享对世界模型表征学习思路的看法。

金鑫：Richard Feynman所说的“I could never create something I didn’t understand.”，我无法创造我不理解的东西。所以刚才杨老师等几位老师提到的内容，核心其实都指向表征学习——我们首先要理解世界，找到合适的表征，这个表征可能是3D的，也可能不是，比如V-JEPA、I-JEPA这类模型最初针对图像构建表征，就是在做这样的探索。

找到合适的表征后，再基于它建立蕴含物理规律和机制的世界模型。这条路径的核心是“先理解再构建”，把表征学习放在第一步，也就是先实现对世界的理解。

我们团队近期一直在研究的“解耦表征学习”概念，源自2013年Bengio的研究，刚才廖老师也提到了这个关键词——希望把3D相机位姿、3D归纳偏置解耦出来。今年我们在ICCV 2025举办了一个workshop，主题是“解耦表征学习与可控生成”，虽然聚焦可控生成，但仍被归入表征学习专题。

我对杨梦月老师那篇引用率很高的Causal VAE论文非常熟悉，经常让学生以它为baseline对比表征解耦的性能。我们做了很多表征解耦的工作，因为我们认为理解世界的方式有很多，自监督学习、MIM等都是，而表征解耦也是其中一种，能将特征层面、特征域、特征空间中的因素分离，找到关键因素并让它们保持正交。比如在图像中，将物体的大小、颜色、属性等在特征域中明确解耦，这不仅能提升AI的可解释性，还能为后续的生成、世界模型构建、高层规划等任务提供便利。

赵老师从JEPA思路出发探讨世界模型，我觉得很有道理。JEPA也是先通过感知理解世界，再建立世界模型，这与“先理解再创造/生成”的逻辑一致。现在大模型也强调融合理解与生成能力，包括我们后面要讨论的“生成与理解、重建是否需要统一”，这些概念和思路其实是相通的。

我再补充一个观点，我之前做过很多图像视频编码压缩的研究，有句话印象很深——“压缩即智能”。深度学习的本质是一个熵减的过程，去除图像、视频中的冗余和相关性，保留最核心、最原始的关键信息。

在编码压缩领域，那些无法再进行熵估计和冗余去除的信息，就是我们理想中的表征。做世界模型时也是如此，需要找到这些关键因素和表征，它们可能无法完全理想化解耦，正如杨老师所说，可能存在关联和因果关系。这就是我的观点。

二、RL与CV的世界模型有何不同？

赵昊：接下来我们进入下一个问题。杨老师刚才提到，当前许多视频生成工作因缺乏动作因素而存在不足。那么RL界与CV界的世界模型有哪些不同？我认为动作因素可能是主要差异。接下来我们具体探讨技术路径，如何让世界模型真正对动作、决策制定发挥作用。有请金老师先发言。

金鑫：虽然我自己亲手写RL代码的经验不多，但通过和学生的讨论（我的学生中有做RL的），我了解到强RL分为基于模型（model-based）和无模型（model-free）两种类型。其中，基于模型的RL所构建的“模型”，我的理解是对环境的一种代理或模拟。简单来说，就是建立一个环境模型，然后用这个模型输出环境的转移函数等信息，智能体基于这些信息进行学习。

2018 年 David Ha 和 Jürgen Schmidhuber 关于世界模型的那篇论文，就和强化学习做了一些对比。所以我个人理解，强化学习中基于模型的“模型”，与 CV 领域用于自动驾驶等场景的世界模型模拟器，核心都是通过模拟环境让智能体进行交互训练。

我们CV里面经常会用到 “simulator”（模拟器）这个词，它本质上就是对环境的模拟 —— 构建出环境后，让智能体在里面通过动作交互进行训练，这和赵老师一直强调的“action”是相呼应的。这只是我的个人理解，可能不一定准确，欢迎大家交流指正。

杨梦月：我在强化学习方面的研究相对多一些。我认为RL与CV的世界模型的核心区别在于服务对象不同。CV界的核心是建模世界本身，关注如何刻画世界的形态；而RL界的核心是智能体，建模世界的最终目的是服务于智能体，让它掌握世界知识，进而提升自身的决策策略policy。

正如赵老师所说，NLP领域面临数据有限的问题，CV领域虽然数据量更大，但也可能存在类似瓶颈。我们近期在世界模型研究中使用了一个较新的观点，名为“开放性”（open endedness），其实质是“自我提升智能体”（self-improve agent）。具体来说，若想提升智能体性能，我们可以通过数据训练，但当数据量有限，无法支撑智能体理解世界上所有事件间的关系时，就需要让智能体主动探索，比如通过自问自答的方式学习。

例如在代码生成领域，让智能体自己提出新的代码问题；在开放世界游戏中，让它自主构建task。生成task的过程本身就是世界模型的建模过程，但其最终目标是提升智能体的决策能力和泛化能力，而非让智能体简单过拟合于某个特定环境，而是使其具备理解世界、自主构建世界模型的能力。

赵昊：比如做RL的研究者，就算没有图像，他们将编码环境中“智能体自己给自己出题”的过程也称为世界模型吗？

杨梦月：最广义的世界模型，可以建模任何规则，这些规则不一定局限于物理规则，数学规则、代码运行机制等也属于规则范畴。世界模型的核心目标是让智能体在特定环境或任务中，具备理解该环境或任务规则的能力。

世界模型的建模方式具有多样性，生物、化学等领域都有其独特规则。但这些规则未必都像物理规则那样明显，也未必有成熟的模拟器支持训练。许多环境中的规则是隐性的，比如ChatGPT，它的生成规则也属于一种世界规则，但这种规则的概率属性就非常大。

所以对于不同的环境，可能都有其对应的世界模型建模方法，这些方法都可以统称为世界模型。

我今年在 ICLR上组织了一个关于世界模型的研讨会，当时我们希望征集的稿件能覆盖各个领域，比如自然科学、社会科学、数学等。实际上，我们也收到了一些比较特别的投稿，它们都将自己的研究称为世界模型。我认为世界模型最核心的特质是能够建模世界背后的规律，并且智能体能够借此与世界进行交互。

廖依伊：我觉得杨老师刚刚的观点非常有意思，这让我想到一个问题：CV 所说的世界模型是否无法服务于Agent的训练呢？可能有的也未必。

RL界的世界模型和CV界的世界模型有什么不同？我的理解是这样的，一方面，正如我们之前讨论的“x(t) + a(t) → x(t+1)”框架，CV界确实更关注与图像平面相关的状态变量x；而在RL界，状态变量不一定局限于图像平面，可以是任意形式的抽象状态。另一方面，据我观察，RL在涉及世界模型时，通常不仅要预测下一状态x(t+1)，还要学习奖励（reward）。如果能直接学到奖励，就可以基于此进行强化学习训练和后续决策。

但目前CV界在视频生成（无论是3D还是纯视频路线）中，更关注预测下一时刻的视觉呈现，比如画面“长什么样子”，却很少考虑奖励机制。举个例子，在视频生成中，即使模拟车辆即将撞车，模型也可能因为缺乏撞车数据而继续生成车辆前行的画面，不会提示“撞车”这个负面结果。所以，奖励确实是CV界世界模型目前较少考虑的点。

比如LeCun团队今年在ICML上发表的“Navigation World Model”研究，就将自身运动作为action，输出图像平面结果，并基于“目标图像”（goal image）定义奖励。在这种情况下，即使模型没有直接学习奖励，也能通过生成图像与目标图像的对比构造奖励，进而基于模型的控制思路遍历路径空间，实现导航、抓取等任务。这么做的话还是可以服务于Agent的。

赵昊：廖老师提到的这一点很关键：我们现在做的这些世界模型，大部分确实没有考虑reward。这是一个很好的研究方向，我们都可以尝试探索。如果能在今年的ICLR和CVPR投稿中探讨“如何在CV的视频生成世界模型中引入奖励”，会是非常好的选题。感谢廖老师的分享。最后有请郑老师也来分享一下看法。

郑文钊：我对RL其实不是特别懂，所以简单说一下我的观点，不一定正确。但我很认同刚才几位老师的看法，总结来说，我认为RL界的世界模型和CV界世界模型主要区别在于，RL界的世界模型更类似判别式模型，当Agent在环境中执行某个动作后，它会输出一个奖励值。而CV界的世界模型更像生成式模型，它不会评判行为的好坏，而是告诉你这个行为会导致世界呈现出什么样的状态。

比如在自动驾驶场景中，若使用RL界的模型，当车辆前行即将撞车时，它只会反馈“撞上了，奖励值为-1000”，而不会展示撞车后的画面；但CV界的世界模型会生成撞车后的具体图像，而非直接告知后果。这是第一个区别。

第二个区别，我结合刚才杨老师的观点补充一下，判别式模型在很多情况下聚焦于从输入x到输出y的映射，而生成式模型则会同时对p(x,y)进行建模。由此我认为，RL界的世界模型更多是一种局部模型，它必须依赖Agent获取反馈，正如杨老师所说，其核心是为Agent服务。但CV界的世界模型更接近独立运行的模型，它可以不依赖智能体，独立建模世界的运行规律。而且它是全局模型，如果有Agent在其中交互，理论上也能基于模型计算奖励。不过目前这类奖励计算的方法还比较缺乏，但基于模型对未来的预测，其实是有可能推导出奖励的。

这就引出了第三个区别，RL界的世界模型更多是反馈机制，不涉及动作建模，动作由Agent单独处理；而CV界的世界模型可以给出Action。总结来说，CV界的世界模型更通用，涵盖世界与动作建模；RL界的世界模型则更狭义，主要是对智能体动作的反馈。

赵昊：我总结一下，当前CV界的世界模型已经取得不错进展，动作因素也已被引入，但尚未大规模应用并产生变革性影响，关键就在于缺乏奖励机制。只要定义好奖励，我们现在做的视频生成模型、数据生成模型就能很快在自动驾驶、具身智能、通用智能体等领域发挥作用。这是一个很好的趋势性观点。

三、通用视频生成

赵昊：我们已经讨论完两个比较抽象的问题，接下来进入专场环节，聚焦视频生成、三维重建等内容。第一个问题通用视频生成模型什么时候能变成真正的世界模型？

通用视频生成模型的发展速度远超我的预期。去年三月，很多图形学老师还认为视频生成模型缺乏物理规律，发展尚早，现在这些声音已经很少了，数据驱动的力量确实不容小觑。我很好奇大家对其发展速度和演变趋势的看法，请廖老师先讲。

廖依伊：谢谢赵老师。关于通用视频生成模型的发展，我确实不敢下结论，因为它的进步正如您所说，超乎想象。至于“通用视频生成模型如何变成真正的世界模型”这个问题，我认为答案相对清晰，还是要回到我们之前达成的共识，世界模型需要具备动作（action）和因果性（causality）。

当前最先进的视频生成方法大多采用“三维注意力机制”（3D attention），将空间（spatial）和时间（temporal）维度的 token 联合处理生成视频。但真正的世界模型需要满足“x(t) + a(t) → x(t+1)”的逻辑，即基于当前状态和动作，预测下一帧的观测结果。

近期已有相关研究尝试引入因果信息，例如在注意力机制中限制时序依赖——第二帧仅关注第一帧和自身，第三帧仅关注前两帧和自身，通过这种方式强化因果关系，我认为这是合理的探索方向。而动作因素的引入仍存在开放性问题：比如建模自身相机位姿这类动作相对容易，但世界中其他动态物体的动作是否需要建模？若要建模，该如何设计？当然，也可以如郑老师所说，将无关动态归为噪声，建模未来的所有可能性，但世界模型的核心目标是什么、动作部分如何设计，这里还有很多问题。

赵昊：我完全同意这个观点。以前我认为开发基于diffusion 的Game Engine没什么用，因为它短期内不可能替代游戏行业，且这类模型缺乏三维表征。但现在我认为它是重要的代理任务（Proxy Task），比单纯的多媒体视频生成模型更接近世界模型的终极目标，是很好的研究载体。因此，动作条件下的通用视频生成模型若能进一步优化，我们就离真正的世界模型更近一步。接下来有请郑老师分享看法。

郑文钊：我比较同意刚才廖老师的观点。关于通用视频生成模型与世界模型的区别，之前很多人认为，前者可能存在虚假内容，后者需在视觉和物理层面都真实，但这种看法并不本质。随着技术发展，视频生成模型中可能隐含物理规律，至于具体怎么做，是否通过三维表征实现更优建模，属于技术路径问题，并非核心差异。

实际上，当前许多生成模型已能建模部分物理规律。伯克利的Trevor老师曾有一篇有趣的研究讲过，尽管物理规律难以直接定义，但数据驱动的视频生成模型可通过学习挖掘物理规律，即数据驱动在一定程度上能捕获物理规律。因此回到核心问题，我认为廖老师的观点非常正确：通用视频生成模型与世界模型目前最大的gap，在于对动作的反馈机制。具体包括：一是动作的定义方式（如路径类动作易定义，但复杂交互动作如何定义）；二是视频生成模型能否对动作做出准确反馈；三是反馈与动作之间是否存在合理的因果关系。

赵昊：听完郑老师的分享，我忍不住想分享自己的观点。我认为当前通用视频模型要发展为真正的世界模型，缺少的是编辑能力、文本对齐能力和指令遵循能力。今年年初， GPT-4o等模型的编辑能力给人带来巨大震撼——用户输入指令后，模型能精准执行。如果这不是专门调优的结果，那么这类模型的图片编辑能力已接近世界模型，因为它能将任意指令转化为对应的视觉内容（尽管在精细的数量、位置描述上仍有不足）。

我认为编辑能力是比 action condition 更好的task。当通用视频生成模型能像GPT-4o一样，通过文本指令实现高精度编辑时，无论其内部原理如何，它必然已经学到了关于世界的某些知识。所以我的观点是，通用视频生成模型除了通过动作条件（如游戏引擎类模型）这条路径外，视频编辑能力的突破也至关重要 —— 编辑能力做好了，它就会无限接近真正的世界模型。这算是我的一个“暴论”，接下来有请杨老师分享观点。

杨梦月：我对视频生成领域了解不深，但听了刚才的分析后有一些想法。我怕在使用视频生成大模型时，有时会觉得生成内容奇怪，可能是因为未遵循因果关系。但因果关系是否为必需，需根据具体场景判断。若要利用模型训练Agent，使其在真实世界具备决策和探索能力，就需要模型贴近真实，遵循因果关系；但从视频生成角度，可能无需严格遵循因果或物理规则。因为人类要创作，有时会突破常规认知，反而能产生新颖的创意。

当前视频生成模型多基于被动数据学习，若数据本身带有倾向性，模型可能学到人类收集数据时的集体意识，进而迸发新的创造力。因此需具体场景具体分析，部分场景需要因果关系支撑。

关于廖老师提到的动态建模问题，世界模型的定义本就非常广义。Multi-Agent系统就是完全动态的，具有“智能体策略相互影响的循环关系”，例如自动驾驶场景中，两辆车决策会相互作用，但这种动态过程仍存在某种均衡。这又回到最初的问题：如何衡量动态中的不变？可能需要引入奖励模型，才能分析场景需求，从动态中提取静态知识。

赵昊：杨老师的观点很有意思。CV研究者常认为，能真实重建物理世界的才是好的世界模型，但大家使用Sora时，常让它生成不符合真实物理的内容。或许生成真实内容并非评判世界模型好坏的唯一标准。

我观察 Sora 的dashboard发现，流量最高、被用户推崇的视频，大多是那些 “不太可能在真实世界中出现” 的内容，它们可能符合基础物理规律，但在现实中难以见到。这确实很有意思。接下来有请金老师分享对通用视频生成模型的看法。

金鑫：几位老师刚才从物理真实性、可编辑性等方面都做了很好的分享。杨老师的观点让我想到一个点：生成与物理事实相违背的内容，即“反事实生成”（counterfactual generation）。我记得之前某本书中提到智能的几个阶段，第一阶段是“观察”，第二阶段是“行动”，第三阶段是“想象”，是“what if”，想象“如果做了这件事会怎样”，这种反事实生成能力或许是关键。

我认为真正的世界模型若能生成全新场景或反事实结果，可能更接近通用智能，甚至涌现出新能力。若世界模型能学到甚至超越人类总结的既定的物理规则，会非常令人兴奋。这是我的观点。

赵昊：金老师的观点很有启发性。我刚才提到生成视频中存在不符合真实物理规律的内容，这是否真的代表模型具备反事实生成能力？我觉得不一定。反而可能是因为Sora等模型在训练数据中学习了大量互联网视频中的特效内容，这些内容并非真实物理世界的记录，模型过拟合到了训练集中的视觉特效素材上。

廖依伊：我想结合杨老师和金老师的观点提个问题。若我们的最终目标是通用智能体，使其能在真实世界交互并完成任务，那么这些视觉特效数据对智能体而言是干扰还是有用呢？

杨梦月：我可以回答这个问题。今年有一个令我印象深刻的新流派，叫做open endedness。他们认为，在数据有限的情况下，要提升Agent决策能力，需不断为其生成新任务和新环境，这些环境可包含前所未有的元素。

我曾与苏昊团队交流，他们现在也要涉足视频生成领域，因为他们是做robotics的，我就问为什么。他们表示，其实是希望将视频生成的结果用于训练robotics agent，提升其某些能力。因为对于机器人而言，在真实环境中的探索代价是非常大的，比如让智能体在真实环境中学习时，即使是在样本复杂度可能不高的场景，在线探索也有很大的风险和代价，因此，通过视频生成辅助生成训练数据，让智能体能够先获得一些先验和反事实知识能在很大程度上提升样本效率。

赵昊：open endedness（开放性），这个词很好。关于通用视频生成中的视觉特效数据是否“有毒”，这个观点很值得探讨。这很像NLP领域的问题：有些数据存在错误或冗余，被称为“有毒数据”或“垃圾数据”，网上生成的这类内容可能也存在类似问题。如何让通用视频生成模型在垂直领域做好对齐，视频生成领域迟早会走到这一步。

四、自动驾驶的世界模型发展到哪儿了？

赵昊：好，我们进入下一个问题，回到我们的老本行，来聊聊自动驾驶。我们都做了这么多年，什么时候才能到L4啊？首先有请金老师分享。

金鑫：很多学术界原本研究自动驾驶的老师，现在转向了具身智能领域，这确实是很现实的情况。在我看来，学术界的特点是把技术做到 60% 或 70%，搭建好方法和原型后，剩下的 “最后一公里” 或 “最后 10%”会交由工业界完成。学术界注重方法与预研，工业界则更快地将其集成产品，因为他们有更多优秀工程师和具备产品思维的产品经理。这是互联网与 IT 技术发展至今的规律。

自动驾驶问题已相对清晰，所以并非是这些学术界的老师放弃了自动驾驶，反而它已接近落地阶段。在硅谷，Waymo的自动驾驶出租车服务每天都在跑。我之前和华为的王新宇老师在论坛交流时，他提到自动驾驶的后续核心是工程化集成，华为也投入了很多人力做这些dirty work。

从自动驾驶转向具身智能，要解决的问题更多、更复杂，这正是学术界需要重点突破的方向。在我看来，这不是跟风转向，而是合理的研究递进。自驾已经有了很多的方案，已经可以带来价值了，可以先投入到市场，之后有了新问题之后大家可以继续研究。

赵昊：金老师认为自动驾驶已发展到一定阶段，剩余工作由工业界大规模落地。我基本赞同，但觉得还存在一些技术问题。一是分辨率有待提高，二是视频长度不足。这些技术难题大概率会在今年得到彻底解决。对于自动驾驶的场景片段（CLIP），真实数据通常是十几秒的片段，我认为如果模型能在一分钟内保持稳定的生成质量就足够了；分辨率则是另一个技术难题，目前车厂使用的数据分辨率较高，但模型生成的分辨率仍偏低，这是很具体的技术层面问题。

关于如何服务决策，我认为今年还剩最后一个关键问题，“在自动驾驶世界模型中如何定义奖励（reward）”。目前动作和高质量传感器数据生成能力已经具备，就差奖励机制。一旦奖励建模完成，方法论就能形成闭环，通过持续验证优化，真正迈向 L4 级。接下来有请廖老师谈谈自动驾驶世界模型的下一步方向。

廖依伊：我的观点和金老师略有不同。金老师提到自动驾驶已有很多落地算法，这一点我认同：如果将世界模型定义为生成环境观测、将AD模型定义为生成动作，那么在AD模型方面确实已有相对成熟的算法投入实际运行。但我认为，目前还没有特别有说服力的工作，能证明自动驾驶世界模型在训练闭环中真正发挥了关键作用。

现在CV界的人，在世界模型研究中，关注的都是损失函数，都是图像生成或渲染质量，无论是重建还是生成路线，都以峰值信噪比（PSNR）等指标衡量，而没有回到Agent上去。因为生成任务更容易推进，大家更多先追求 “生成得好”。但实际中，路上跑的系统大多还是基于大量数据的模仿学习训练而成。

目前，世界模型即便被应用于自动驾驶，可能也只是作为验证工具，比如验证车辆在场景中能否正常行驶。但真正将世界模型纳入训练闭环，用它支持Agent训练并证明其有效性的工作，目前还较为缺乏。当然也有一些初步的相关尝试，例如地平线的RAD在3D高斯场景中开展了自动驾驶强化学习微调。我认为从世界模型的角度来看，仍有许多问题值得探索。比如，当前的3D高斯技术以及我们自研的模拟器，是否真的能有效缩小领域差距（domain gap），这一点就非常需要验证。

金鑫：我同意廖老师的观点。刚才说的是自动驾驶整体算法层面，而针对自动驾驶世界模型，我认为它才刚起步，或者说在追求更完备解决方案的道路上，大家的思路才刚转变。两年前，大家可能还在想着收集数据、自监督训练，但慢慢发现，数据无法穷尽所有边缘案例（corner case），每次遇到新案例就补数据，这种方式永远无法覆盖所有情况。于是大家才转向借助闭环模拟器（即世界模型）来辅助训练，不需要依赖持续收集数据就能学好，这个思路转变其实才刚刚开始，还处于早期阶段。

赵昊：总结廖老师的观点，下一步我们要走向大规模基于世界模型的训练，我完全同意。这其中最核心的问题就是reward如何定义。接下来有请郑老师分享自动驾驶世界模型的发展趋势和下一个突破点。

郑文钊：我整体还是比较认同廖老师的观点。在sora等模型出现后，大家开始探索如何将其迁移到自动驾驶场景，有些工作直接使用自动驾驶数据训练，但本质上仍在像素（Pixel）空间建模；当然还有另一类方法，比如我们之前做的工作，直接在三维空间（如占据空间、边界框空间，或是后来的高斯空间）中建模，探索如何让世界模型真正在三维空间用起来。

自动驾驶的特点是，对世界模型的精度要求极高，比如停车时可能需要厘米级的精度，“看起来对”是一回事，“实际能用”是另外一回事。像sora这类模型，看起来没装上，但是差几厘米，后果差别是很大的。因此，自动驾驶世界模型目前的关键问题是：如何实现对未来的精准预测，以及对动作的精准响应能力。

从当前趋势来看，有一些工作开始走三维与二维结合的路线。三维重建的优势是在三维空间中精度较高，但缺乏想象能力，生成效果可能不够自然，两者结合可能是自动驾驶世界模型未来的发展趋势之一。第二点是泛化能力的提升，这关系到世界模型如何更好地落地。我认为泛化性可分为两个层面：第一是泛化到数据未覆盖但符合物理规律的场景；第二类似之前提到的反事实（counter factual）泛化，即泛化到不真实的场景。我们需要第一种，比如数据中没有撞车案例，模型能否想象出真实的拐弯碰撞场景。

第三点是如何用好世界模型，这也是金老师和廖老师提到的未来发展方向。结合我们早期的探索，我认为可以从两方面入手：一是让世界模型具备预测action的能力。这类似人类开车，人具有有预测未来的能力，但很多时候人的动作是下意识的本能判断（无需刻意思考左拐加速的后果）；二是在有时间的情况下，模型可以像人一样“深思熟虑”，比如模拟左拐、右拐的结果后选择最优动作。因此，世界模型在自动驾驶中的应用不应仅作为训练的奖励机制，更应转化为一种预测范式，既包含“系统一”的本能反应，也包含“系统二”的深度决策。

赵昊：感谢郑老师。我们聊了很多专业细节，不知道普通听众会不会觉得难以理解？整体而言，郑老师提到的一个观点很有意思：当前自动驾驶世界模型的基准（Benchmark）性能还比较低，比如占据预测（occupancy）指标在部分数据集上仅二十几，有些数据集能到四十几，可能要等指标提升到70左右，才能说模型相对成熟。

这就引出一个问题：随着VGGT等视觉基础模型的发展，自动驾驶数据集上的指标却难以上涨，大家觉得有什么新机会能推动指标提升吗？

郑文钊：有时可视化结果看起来不错，但指标只有20，这正反映了自动驾驶对精准度的严格标准。赵老师提到的方向很关键：目前在基础层面，自动驾驶还缺乏像VGGT那样成熟的感知基础模型。现在大家训练的模型多基于早期的ResNet等架构，或未经过大规模数据训练的骨干网络（backbone）。未来若能出现专为自动驾驶设计的感知基础模型（perception foundation model for autonomous driving），性能应该会有较大飞跃。

赵昊：我们最近用VGGT更多是做重建和仿真。长期来看，我和同行聊过一个观点：迟早会出现自动驾驶垂类的动态基础模型。现在已不是单纯的VGGT，而是有了动态版本的SpatialTracker V2，它的性能非常强，我们最近的工作都基于它。自动驾驶场景是动态的，必然需要适配动态场景的模型。如果能有这类垂类的SpatialTracker V2模，当前的范围检测、occupancy mapping等任务的指标都可能大幅提升，我们可以期待，这样的工作谁能做出来，一定会很有影响力。

或许不如把所有自动驾驶数据整合起来，训练一个专属的SpatialTracker，说不定今年自动驾驶感知任务能迎来突破。之前大家觉得Waymo上模型的检测性能已触顶，但今年或许能再涨一涨。最后有请杨老师分享看法。

杨梦月：我对自动驾驶领域的具体方法并不十分熟悉，但从金老师提到的关联、干预与反事实推理角度来看，我们希望智能体具备反事实想象能力，那它就必须理解场景的因果结构——这源于图灵奖获得者朱迪亚·珀尔(Judea Pearl)提出的“因果阶梯”概念，他是因果推理领域的核心研究者。

因果推理的核心是“三层阶梯”，而实现三层阶梯的根本要求是理解系统内部的运行规则。因此，若要确保智能体具备想象能力，或是满足安全层面的高要求，它必须掌握具体的物理规则和环境规则。此外好的世界模型，也无法捕捉现实世界的所有情况。这一方面受限于数据，另一方面因为世界模型在训练之初就应处于动态更新的闭环中，从RL的角度来看，这个过程是：首先通过经验数据训练出转移模型，再基于转移模型做出决策。而决策结果与转移模型预期结果的差异，就可以用来更新世界模型。因此，我认为提升模型性能的一个重要方向是：不能仅依赖训练数据进行训练，还需要通过两方面发力 —— 一方面要思考如何在真实系统中进行干预并获取真实反馈，这种干预是基于当前对世界的理解（比如已有的世界模型）做出的决策；另一方面，当决策执行后，将收到的真实反馈用于更新当前的世界模型。

因此，模型训练应从两方面展开：一是从数据和仿真器中学习；二是在保证安全的前提下，让智能体在真实环境中进行一定程度的探索，通过真实反馈持续自我更新。

五、具身智能的世界模型应该如何构建？

赵昊：我们接着讨论下一个话题：具身智能的世界模型应该如何构建。具身智能世界模型目前尚未形成明确的范式、规范和定义，需要一个好的切入点来证明其价值，推动领域发展。

我觉得，具身智能的世界模型需要一个“触发器”，一个能证明其价值的场景，这样这个领域才能真正发展壮大，目前还缺少这样的闭环机制。我还没找到特别好的思路，也没看到成熟的案例，但今年有两个工作让我印象深刻：一是贺老师团队的吕江燃在ICCV会议上做的工作，能用具身智能世界模型实现非预编程操作（non-prehensible manipulation）；二是董老师团队的宁川若同学在RSS会议上发表的《Prompting with Future》，用高斯世界模型展现了规划能力。这两个工作可能是目前具身智能世界模型领域相对闭环的baseline案例，不过都还处于初期阶段。想先问问郑老师，若要研究具身智能世界模型，您认为哪些技术路径比较值得探索？

郑文钊：我觉得具身智能的问题特点与自动驾驶有相似之处，比如都对三维精度有极高要求，甚至比自动驾驶更严格。自动驾驶场景相对宏大，而具身智能的抓取等场景可能需要毫米级精度——一旦误差超过范围，就可能抓取失败，这是第一个挑战。第二，物理规律在具身智能中扮演更重要的角色：自动驾驶的物理规律相对简单（如车辆行驶），涉及的重力等复杂物理作用较少；但具身智能的抓取场景中，物理规律至关重要，这也是为什么大家常做real2sim2real的研究——需要先将真实场景映射到仿真空间，而仿真空间必须明确建模物理规律。

从发展阶段看，具身智能的世界模型整体比自动驾驶稍落后，但有其独特性，比如已有工作尝试在仿真空间中建模物理规律，而自动驾驶领域缺乏对物理引擎（Physics engine）的深度建模，这是具身智能的一大特点。

未来具身智能世界模型的发展，我认为有两个方向：一是像自动驾驶中提到的，实现重建与生成的结合，提升三维建模精度；二是更精准地判断因果性，并让因果性与物理规律更好契合。由于具身智能的数据稀缺，纯数据驱动很难训练出符合物理规律的世界模型，因此需要更好地建模物理规律，甚至将其“注入”模型。除了real2sim2real的路径，更优的方向可能是数据驱动与物理规律结合——探索如何通过某种方式将物理规律注入数据驱动模型，这可能是未来的趋势。

金鑫：我跟郑老师观点相似。我们最近半年也在做类似探索。记得去年年底会议上碰到廖老师，讨论她的HUGSIM工作时，我曾建议是否考虑加入物理规则，让仿真层（SIM layer）更具物理属性。当时廖老师反问：“物理性对自动驾驶任务真的那么重要吗？” 这个问题让我深思，后来发现确实如此，自动驾驶中，除了天气光照、路面积水反光（比如陈宝权老师团队做的相关研究）等边缘场景，对物理规律的依赖并不强。但具身智能不同，机器人的夹爪摩擦力、力反馈，以及软体、流体、铰接体等的物理属性，对任务影响极大。因此，物理真实性（physical world intelligence）对具身智能的世界模型反而更重要。

我们的探索方向和郑老师提到的很接近：不仅依赖数据驱动，还借鉴了传统仿真领域的经验，结合图形学中的物理建模方法（如杨氏模量、弹簧 - 质量模型等基于规则的物理仿真）与数据驱动的生成模型（如AIGC生成模型），希望让具身智能的世界模型既能保证物理真实性，又能实现表现真实（appearance real）。

杨梦月：我对具身智能领域的了解确实比较有限，更多是从各位的观点中学习。我的想法是，在具身场景中，能否通过某种机制或智能体捕捉物理规律，将其整合成因果模型，再利用该模型进行反事实预测或推断，大概是这样的思路。

赵昊：我觉得这个观点很有意思，这也是今年的一个重要趋势。比如近期的4KAgent表现出色。我隐约感觉到，今年存在“算法Agent化”的趋势。这个理论在2024年就已出现（比如Visual Programming团队关于tool using的best paper），但今年堪称“Agent元年”，连写代码都能被Agent替代，因此，今年或许可以重新审视Auto ML、视觉编程等方向。

这个思路很有价值：世界模型未必是客观被动的、被物理规则固化的存在，它能否成为主动演变的“环境Agent”，在与数据的互动中持续优化？这是今年值得探索的有趣方向。

廖依伊：我总体赞成金老师和郑老师的观点，思路确实比较相近。从自动驾驶世界模型到通用具身智能世界模型，两者差异显著：自动驾驶中，智能体与环境的交互很有限，主要是与路面的交互，路面可建模为平面，自车可用基础模型简化，其他物体（如车辆、行人）也有特定模型，场景相对局限。因此，自动驾驶中无论是视频生成还是其他任务，都容易回归到3D建模，且3D渲染高效，操作便捷。

但具身智能中，3D固然重要（因涉及交互），但维度复杂度大幅提升——既包括智能体自身的维度，也包括与环境交互的维度。我一直在纠结路线选择：是走2D路线，还是3D路线？比如今年Cosmos的工作采用“3D+2D”模式，先通过仿真器生成Mesh，再驱动生成逼真视频，这确实是未来趋势之一，但未必是唯一趋势。核心问题在于：是否必须显式建模3D？在2D层面能否学好交互？若有足够训练数据，2D学习交互可能更简单——比如叠衣服、泥巴落地等非刚性物体场景，在3D中建模难度极大。如何做好2D与3D的结合，仍是难题。

赵昊：完全同意。若3D、4D仿真过于复杂，不显式建模或许更好。

金鑫：还要考虑训练复杂度和推理效率——机械臂等硬件的算力有限，复杂建模会更麻烦。

赵昊：感谢四位老师的分享。希望今天的安排大家满意。

原创文章，未经授权禁止转载。详情见转载须知。