智源王仲远：世界模型是通向物理AGI的桥梁

时间：2026-06-19 10:59

第八届智源大会发布悟界系列五款模型，其中通用世界基座模型悟界·Physis-v0 1和具身大脑悟界·RoboBrainOrca成为焦点。智源提出以物理状态预测为核心的世界模型路线，强调视频生成不等于世界模型，需实现物理理解、时间一致性与行动闭环。

2026年6月12日至13日，第八届智源大会在北京中关村国际创新中心如期举行。这场备受瞩目的行业盛会，聚焦了超过二十个当前人工智能领域最受关注的热门议题，嘉宾阵容堪称豪华——图灵奖得主、全球顶尖科学家以及头部AI企业的创始人齐聚一堂，线下参会人数突破了万人规模。

回顾历届智源大会的发展轨迹，可以发现一条清晰的主线：在大语言模型最为火热的阶段，智源研究院便已将“世界模型”标注在AI演进的路线图上——从大语言模型、多模态，再到世界模型与物理AGI。这一远见使智源成为国内最早提出并系统性开展世界模型研究的科研机构。

在2024年的智源大会上，杨立昆（Yann LeCun）阐述了新一代世界模型的概念；同年，智源研究院发布的人工智能大模型技术路线预判，明确将世界模型定位为下一代大模型技术的核心方向。其2024年推出的悟界·Emu3以及2025年发布的悟界·Emu3.5，是全球首个原生多模态世界模型的代表性作品。

基于这些深厚的技术积累，今年的智源大会集中释放了一批令人瞩目的创新成果——有媒体将其称为“悟界五连发”：原生多模态大模型悟界·Emu3.5；多模态神经科学大模型悟界·Brainμ1.0；AI驱动的药物发现模型悟界·OpenComplex2.5；通用世界基座模型悟界·Physis-v0.1；以及以物理状态预测为核心的具身大脑悟界·RoboBrain Orca。

在当下世界模型叙事的热潮中，悟界·Physis-v0.1与悟界·RoboBrain Orca无疑成为了本次大会最受关注的焦点。

悟界·Physis-v0.1作为全球首个通用世界基座模型，其核心思路是“预测下一个物理状态”。它不再依赖传统的像素级或帧级预测方案，而是通过物理隐空间表征来学习真实世界的运行规律——将视频、深度RGB、3D点云、力触反馈等多模态信息统一编码为物理状态Token。这样一来，模型便能完成跨场景的通用物理规律强化学习，并支持复杂物理场景的长程推理。

而悟界·RoboBrain Orca，作为以预测下一个物理状态为核心的具身大脑，构建了“统一表征—建模—预测—交互”的完整闭环。它具备统一表征、因果推演、模态解码三大核心能力，能够同时生成语言思考、视觉预测与动作决策，从而支撑具身智能机器人在物流、酒店服务等真实环境中实现长期自主作业。

“目前智源将现有的世界模型技术划分为四类。其中大家最熟悉的，应该是视频生成模型。”王仲远指出，“但现在市面上绝大多数被称为‘世界模型’的，其实都不是真正意义上的世界模型。这是一种普遍的误读。视频生成不等于世界模型，这是智源非常明确的态度。”

事实上，当Sora、VLA、World Action Model等各路技术都冠上“世界模型”的名号时，整个行业确实陷入了一场概念混战。在这个定义尚未收敛的全新战场上，智源选择率先亮出自己的坐标。在王仲远看来，这是一次“正本清源”。

以下是与王仲远的对话全文，略有删减：

创投家：为什么智源定义世界模型是通往物理AGI的必经之路？

王仲远：世界模型是面向真实物理世界的下一代基座模型。它的目标是让机器人真正“理解”物理世界，而不仅仅是背诵训练轨迹。从“预测下一个Token”到“预测下一个物理状态”，我们认为这是一次人工智能的重大范式变革。这意味着，面向物理世界、物理AI的基座模型，将迎来真正的诞生机会。

世界模型不仅能感知、理解、推理真实物理世界的时间、空间、物理规律和常识，还能涵盖文本、视频、深度、力觉、感知等全模态数据，并具备主动交互能力，从而支撑各类物理世界的下游应用。

一个通用的世界基座模型，不仅要实现物理上的正确性，还得具备动作因果的可追溯性、长时间序列的一致性，以及通用泛化能力。我们开发世界基座模型的核心原因，就是相信世界模型是具身智能可行的技术解决方案。现在这个产业需要一次核心突破，而世界模型就是那座桥梁。

创投家：据您观察，当下世界模型有哪些技术路线上的分歧？

王仲远：今年世界模型的热度显著提升，很多不同的技术路线、不同的场景模型都给自己贴上了“世界模型”的标签。简单来说，智源将现有的世界模型梳理为四种主流定义方式：以语言为中心、以像素为中心、以三维结构为中心，以及以视觉表征为中心。

第一类是以语言为中心的世界模型，包含大语言模型、VLM、VLA等。世界模型的核心是让人工智能进入物理世界，去感知、理解、推理并与世界交互。语言本身也总结了很多世界知识，只是以文字形式表达。VLM和VLA则是把其他模态和能力映射到语言空间。因此，以语言为中心也属于一类世界模型。

第二类是以像素为中心的世界模型，也是目前被误用最广泛的。OpenAI将Sora定义为“World Simulator”，本质上是在预测下一个2D像素场景。这类模型在视频生成上很有用，但由于训练数据大量来自影视作品和科幻片，它经常会生成不符合真实物理规律的内容——比如物体凭空消失、违反重力逻辑、流体动力学错误等。Yann LeCun也多次公开批评过：生成像素不等于理解物理因果。

第三类是以三维结构为中心的世界模型。李飞飞教授2024年创办World Labs，提出了“空间智能”理念，发布的Marble可以从单张图片生成可交互的持久化3D环境。这本质上瞄准的是数字世界的构建，未来可能应用于元宇宙、游戏场景和数字孪生。但重建3D空间不等于理解世界，几何结构也不等于物理状态。

第四类是以视觉表征为中心的世界模型。比如杨立昆的JEPA系列模型，预测的是视觉表征的压缩。但视觉嵌入的演化，并不等同于物理规律的演化。

创投家：智源的世界模型走的是哪一条路线？

王仲远：事实上，我们认为未来可能会出现第五个分类，或者说智源目前在尝试的，很可能就是第五个分类：以语言为中心和以视觉表征为中心的融合路径，也就是潜空间表征。

我们延续了悟界·Emu3.5模型的训练思想：将文字、图像、视频等各种模态全部压缩，进行原生统一训练，统一压缩到同一个语义空间。通过统一的潜空间来表征真实物理世界的各种状态，然后再解码成为动作、画面或其他物理世界需要的状态。

我们认为，未来统一的潜空间建模，不仅仅是视觉空间，而是全模态的潜空间。这很可能是世界模型的下一个可能性路径。不过，这条路径目前还没有完全走通，所以我们暂时不打算将其定义为一个分类。期待明年和后年，当我们再次分享最新成果时，它能真正走通。

创投家：全行业世界模型的卡点到底在哪里？

王仲远：第一个卡点是物理理解。

现在主流的视频生成模型，可以制作出一两分钟的画面，画面看起来没问题，但物理规律完全是错的。一瓶盖着盖子的水和一瓶没盖的水同时掉在地上，人类大脑会立刻预判后果：没盖的水会洒出来，盖着的瓶子可能会弹起来。这种物理后果的预判，现在的模型完全没有。我们的目标不是教模型生成视频，而是教它理解物理规律，然后基于这种理解去预测下一个状态。

第二个卡点是时间一致性。很多模型从五秒到十分钟到一分钟，看起来时间跨度在增加，但本质上还是在解决“下一帧像不像”的问题。你给一个瓶子加水，旁边放一个时钟，镜头移开再移回来，时钟走了十秒还是二十秒？模型不知道。长时间序列的一致性，不仅仅是画面连贯就够了，而是瓶子里到底有多少水、时钟走了多少秒、物体的位置关系有没有改变——这些状态变量必须在时间轴上保持一致。

第三个卡点，也是最大的卡点——世界模型最终要服务于行动。人类看到瓶子要掉下去，会自动伸手去扶。这个动作不是从视频里学来的，而是从物理交互中习得的。我们需要把多模态感知、物理规律理解和动作执行三者打通，而不是让它们各自为政。具身智能正在大量采集真实物理世界的数据，这些数据是有意义的。但如何让模型从“看懂”变成“会做”，是另一个层面的问题。

这很像当年大语言模型依赖互联网数据实现爆发一样，世界模型也需要一个足够规模的、真实物理交互的数据底座，才能迎来真正的拐点。

创投家：训练世界模型，最需要什么样的数据？

王仲远：视频数据是第一性原理。

去年我接受媒体访谈时举过一个例子：一个两岁的小女孩，父母从来没有手把手教过她怎么拆糖果、怎么串蓝莓。但她每天刷短视频，看着屏幕里的小姐姐吃，看着看着，自己就会了。她通过视频观察真实物理世界的交互，然后在自己的世界里尝试、犯错、修正，最终掌握了这些能力。

视频是她唯一的信息输入，但输入的是物理世界的因果链条。她看到“手伸向蓝莓→串起来→送进嘴里”，这个画面里包含了动作、物体、空间关系、时间顺序——这些不是文字描述，而是物理过程本身。这说明一个核心道理：视频数据天然携带了物理世界的结构化信息，只是我们目前还没有充分挖掘它的潜力。

创投家：所以核心还是海量的视频数据？

王仲远：视频是底座，但还不够。那个两岁女孩，看视频之后还要进行真实的物理交互——自己拿蓝莓、自己串、掉了再捡。这个环节是视频给不了的。

因此，第二层数据是真实物理世界的异构感知数据：机器人的关节角度、触觉反馈、力矩变化、传感器读数……这些“身体感受”是视频里没有的。悟界·Physis在训练时采用了双层结构：底层用海量视频数据建立物理世界的概念模型，上层用真实物理交互数据来精细调整动作和决策。两者缺一不可。

创投家：您认为世界模型与VLA模型的本质区别是什么？

王仲远：现在的VLA和具身模型，最大的痛点在于不具备泛化性，也不具备自我推理和决策能力。

把它放在训练过的场景里，它能做；换一个场景，它就蒙了。因为它的“世界理解”不是从足够丰富的物理经验里学来的，而是从有限的、标注过的轨迹里硬背下来的。

就像那个两岁女孩，如果她只看过三段串蓝莓的视频，她一定学不会；但如果她看了三百段，再加上自己试了几十次，她大脑里的“世界模型”就泛化出来了。

所以我们的判断是：真实物理世界的数据需要持续累积，最终和视频数据一起，喂给世界基座模型，才能迸发出真正的泛化能力。

好消息是，现在具身智能和AI硬件正在大量采集真实数据。这些数据的汇总和积累，正在逐步触及物理世界基座模型的爆发点。这很像当年大语言模型依赖于互联网数据，数据量到了，拐点就来了。

创投家：那VLA和世界模型的终局关系是什么？

王仲远：VLA是当下，世界模型是未来。VLA不会被完全取代，但会分层。在特定场景的落地上，VLA依然非常高效。比如工厂里分拣包裹，这种特定任务、特定场景，搜集特定数据就能完成，VLA完全够用。

但VLA有几个结构性的局限性：

第一个是模型太大，部署端的响应速度不够。真实物理世界执行动作有频率要求，机器人需要实时反应，而VLA的延迟太高，满足不了。

第二个是泛化性不足。它是在一个固定场景里用固定数据训练出来的，场景一变，就需要重新采集数据重新训练。

第三个，也是最关键的，VLA解决不了长程规划和复杂空间物理规律的推理。

创投家：所以VLA是阶段性的过渡方案？

王仲远：你可以把它理解成“沿途下蛋”。VLA促进了机器人在特定场景的落地，这本身有价值。但它不是终局。十年后，7B、10B甚至3B的小模型会越来越顺畅，部署问题会缓解，但底层问题还在：换一个场景，它依然不懂物理，不会推理。

世界模型才是解决泛化性和物理推理的终局。短期来看，VLA继续落地；长期来看，世界模型将接管。这两条路不是对立的，而是接力关系。

创投家：世界模型到底能在哪些场景落地？

王仲远：场景主要分为两条主线：具身智能和物理仿真引擎。

具身智能是最确定的场景。整个具身产业正卡在一些核心技术瓶颈上，尤其是机器人的泛化能力。而世界模型就是来解决这个问题的。虽然现阶段它还做不到通用，但会“沿途下蛋”，在解决具体场景问题的过程中不断积累。

理想状态下的世界基座模型，既可以用于具身智能，也可以用于物理仿真、科学实验，以及其他物理世界的真实场景，应用前景会非常广泛。

创投家：世界模型在数据采集层面的价值，是不是主要就是生成合成数据？

王仲远：生成数据是其中之一，但远不是主要价值。当然，我们不否认视频生成模型在无人驾驶、自动驾驶和具身场景中都有独特价值——悟界·Physis和悟界·RoboBrain Orca也确实展示了真实的画面生成能力。但如果把世界模型仅仅当成一个“数据生成器”，那就把它用得太窄了。

创投家：那在数据层面，它更大的价值是什么？

王仲远：是决策前置。世界模型真正强调的核心是：基于当前的Context和状态，预测未来可能发生的各种情况，然后做出最优决策。这有点像《奇异博士》里的情节——他不是只能看到一种未来，他能看到几千种未来，然后选择那一种最好的结果。

创投家：这和数据采集有什么关系？

王仲远：关系在于，它能指导你采集什么样的数据。传统的数据采集方式是“扫街”式的——开着车满世界跑，遇到什么就采什么。有了世界模型，你可以先问它：如果我要解决这个场景的泛化问题，哪些物理状态变量最关键？哪些边缘情况最可能发生？然后，你再有针对性地去采集，而不是盲目堆砌数据。这样，数据效率是数量级的提升。

世界模型不是创造数据的工具，而是规划数据需求的大脑。基于对未来状态的预测，它能告诉你“缺哪块数据”，而不是“帮你生成一堆似是而非的数据”。悟界·Physis和悟界·RoboBrain Orca确实能生成画面，但那只是验证手段，并非核心应用。

创投家：训练世界模型对算力的要求是不是更高？

王仲远：这要看走哪条路。世界模型目前技术路线没有完全收敛，不同路线对算力的需求差异巨大。

如果把语言体系包含进去，走生成路线，那算力需求就是海量的，和GPT-4、Sora是一个量级。这些路线本身也是世界模型技术路径的一种探索，但它们天然就是算力黑洞。

创投家：智源走的是什么路线？对算力要求高吗？

王仲远：悟界·Physis的设计思路是不包含语言，专注于视觉和物理状态的Latent学习。Latent学习方法的本质是极致压缩——不是把整个世界打成像素重建，而是在隐空间里学习物理状态的抽象表示。这省下来的算力是数量级的。所以，我们目前推进悟界·Physis，算力需求相对可控，不需要堆万卡集群才能跑。