“世界模型”当下最吊诡的地方在于:它前所未有的热,却也前所未有的模糊。正是在这个时间点,智源研究院直接把“世界模型”推到了今年智源大会的核心位置。
6月12日,2026智源大会上,智源研究院宣布了两项与世界模型相关的最新进展:悟界·Physis-v0.1 和悟界·RoboBrain Orca。前者指向通用物理世界基座模型,试图让AI从“生成画面”走向“预测物理状态”;后者面向具身智能,希望让机器人在行动之前,先学会感知、理解和推演世界。
大会前,与智源研究院院长王仲远等进行了近3小时的交流,主题正是拆解和探讨当下最热的“世界模型”。试图弄清楚:世界模型到底是什么?它是人工智能的一次重大范式变革吗?现在到了什么阶段?卡点在哪里?智源又打算怎么押注?中美之间有没有差距?

定义之惑:到底什么是“世界模型”?
王仲远给出了一个很清晰的判断:世界模拟器不等于世界模型,视频生成更不等于世界模型。原因很简单——视频模型可以生成看起来逼真的画面,但不一定真正理解物理规律。它能生成一头在天上飞的猪,也能生成物体凭空消失、流体运动违反物理规律、重力逻辑不成立的片段。这样的模型在影视、游戏、自动驾驶数据生成等场景中有价值,但如果直接用在机器人、工业控制或真实世界决策上,风险就大了。
“如果机器人装上这样的大脑,可能会误以为自己是钢铁侠。”王仲远打了个形象的比方。
他对世界模型的定义是:面向真实物理世界的下一代基座模型。核心从“预测下一个词”(Next Token Prediction)变成了“预测下一个物理状态”(Next Physical State Prediction)。
目前世界模型还处于早期,技术路线远未收敛。王仲远梳理出至少五条路线:
第一类是以语言为中心的世界模型。包含大语言模型、VLM、VLA都可归入此类。语言能总结很多世界的知识,但只是以文字方式表达;VLM、VLA则把其他模态映射到语言空间。以语言为中心,算是世界模型的一类。
第二类是以像素为中心的世界模型。这是目前最广为人知、也最容易被误用的路线。OpenAI发布Sora时用了“World Simulator”这个词,它预测的是下一个画面帧,所以更接近“世界模拟器”。这类模型能生成连贯视频,但短板在于:它可能学到的是影视作品中的视觉相关性,而不是真实物理世界的因果规律。
第三类是以三维结构为中心的世界模型。李飞飞提出的“空间智能”方向,本质上是数字世界的构建——关注3D重建、空间生成和可交互环境。World Labs发布的Marble,尝试从单张图片生成可交互、持久化的3D环境。王仲远指出,这更像元宇宙和游戏场景的延伸,解决的是“数字空间”的问题,而非“物理空间”。
第四类是以视觉表征为轴心的世界模型。这是Yann LeCun长期强调的方向,从I-JEPA、V-JEPA到V-JEPA-2,主张模型不必生成完整画面,而是在隐空间(latent space)中预测世界的抽象状态。王仲远认同这一路线对大语言模型局限性的判断——光靠语言模型确实无法解决真实物理世界的复杂问题,但他并不完全赞同“语言不重要”。在他看来,未来的世界模型不能只依赖隐式表征,也不能完全绕开语言,因为语言仍然是推理、规划和表达的重要接口。
智源研究院其实在探索第五条路线——也就是第一条和第四条的融合:以语言为中心的分类与以视觉表征为中心的分类可能实现融合,也叫潜空间表征。同一个潜空间能够解码不同的模态。智源延续了悟界·Emu3.5模型训练的思想:将各种文字、图像、视频模态全部压缩,原生统一训练,压缩在同一个语义空间,希望未来有更多模态被压缩进来,通过统一潜空间表征各种真实物理世界的状态,再解码成为Action、画面或其他物理世界需要的状态。王仲远认为,将来统一的潜空间建模不仅仅是视觉空间,而是全模态潜空间,这很可能是世界模型真正下一个可能的路径。
“世界模型最终要解决的是看到、感知、理解真实世界,进行推理规划和决策。”王仲远说。它不应只是一个仿真器,而应是一个能够辅助人类和智能体理解物理世界、预测未来状态、做出行动决策的基座模型。

世界模型VS大语言模型:AI的重大范式变革
如果说大语言模型的核心范式是Next Token Prediction(预测下一个词),那么智源认为,世界模型的核心范式将是Next Physical Prediction(预测下一个物理状态)。王仲远直言:“这是人工智能的一次重大范式变革。”
过去几年AI的主线非常清晰:先是语言模型,让机器理解和生成文本;然后是多模态模型,让机器能够处理图像、视频、声音等信息;再往后,AI必须进入物理世界,与硬件、机器人、工业系统、科学实验和生命系统发生关系。换句话说,AI不能永远停留在屏幕里。
大语言模型已经在写作、总结、问答、编程等数字世界任务中展现出巨大价值,但真实的人类社会并不只由文字、代码和网页构成。工厂、物流、酒店、医院、实验室、道路、家庭——这些才是更复杂、更高价值、也更难建模的物理世界。
王仲远将这一过程概括为:大语言模型、多模态、世界模型,最终通往物理AGI。物理AGI不是抽象的聊天机器人,而是能够在真实世界中感知环境、理解状态、推演后果、做出决策,并通过实体或工具执行动作的智能系统。
这也是智源过去几年布局的主线。2024年,智源发布悟道大模型,开启了中国大模型时代;随后转向多模态,推出悟界系列。2024年6月的智源大会上,智源已经明确提出:AI将从原生统一多模态,进入物理世界与硬件结合,再进入微观世界AI for Science,最终通向物理AGI。世界模型不是2026年突然长出来的方向,而是技术路线中的一个阶段性结果。
这一脉络在Emu系列中已有所体现。2024年悟界·Emu3,2025年悟界·Emu3.5,实现了图像、文本、视频的原生统一。王仲远认为,Emu系列本质上是智源对世界模型的早期探索,是“多模态世界模型基座”的雏形。但他也承认,Emu3.5时代的多模态世界模型还远远不够——当时融合的主要是文字、图像和视频,连声音和动作都没有完全融合。真正进入物理世界后,模型必须理解动作、状态、时间、空间和物理规律,还要能判断一个动作会导致什么后果。
举个例子:一瓶盖着盖子的水和一瓶没盖盖子的水,如果同时从桌边跌落,人类会自然预判两者后果不同——前者可能只是摔落,后者可能洒水、造成滑倒或损坏物品。但要让模型真正学会这种物理常识,并不容易。这正是世界模型相较多模态模型的关键区别:多模态模型解决的是不同信息形式的统一理解和生成;世界模型要进一步解决的是——在真实物理世界中,状态如何变化,动作如何产生后果,因果链条如何被推演,长期状态如何保持一致。
王仲远认为,语言模型时代的能力激发方式是Prompt;世界模型时代,能力激发方式可能是State。语言模型时代,模型更多是被动观察和响应;世界模型时代,模型必须具备主动交互能力。语言模型时代可以是单模态或多模态;世界模型时代必须走向全模态。世界模型不是对大语言模型的简单替代,而是一次更大的范式扩展:从数字符号预测走向物理状态预测,从回答问题走向理解世界,从生成内容走向规划行动。
世界模型有哪些应用场景?和具身智能什么关系?
“VLA是当下,世界模型是未来。”王仲远认为,具身智能是当下最大的应用场景,但世界模型远不止于此。它可以替代传统物理仿真引擎(超越人类手工写的物理公式),可以用于科学发现甚至帮人类发现未知的物理规律,可以服务工业、物流、医疗……任何“在真实物理世界中干活”的场景。
现在的具身模型还很“笨”——一个场景一个任务地训练,换个环境就不会了,缺乏物理常识和泛化能力。这正是世界模型要解决的:做一个通用的物理世界基座模型,像大语言模型一样,能适应不同场景,做出合理决策。智源想做的,正是在这个范式尚未完全收敛的时候,提出自己的定义、分类和路线判断。

智源的路线:悟界·Physis做物理底座,悟界·RoboBrain Orca做具身大脑
今年,智源在世界模型方向最重要的两个布局,是悟界·Physis-v0.1和悟界·RoboBrain Orca。两者都指向物理世界,但侧重点不同:一个偏底座,一个偏大脑;一个更强调物理状态建模,一个更强调具身交互闭环。
先说悟界·Physis。它的核心范式是Next Physical State Prediction——预测下一个物理状态。与许多视频生成模型不同,Physis的目标不是生成更漂亮的视频,而是学习真实物理世界中状态变化的规律。智源对其定位是:全球首个通用世界基座模型,以预测下一个物理状态的范式,探索真实物理世界AI底层引擎。关键变化在于:不以像素或帧为核心,而以“物理状态”为核心。一个瓶子倒下去之后,状态变化不仅包括画面里的像素变化,还包括瓶子的姿态、速度、碰撞、接触关系、液体是否流出、桌面是否吸水、周边物体是否被带倒。一个模型如果只生成“看起来像瓶子倒了”的视频,并不等于它理解了这个过程。真正的世界模型需要知道:瓶盖是否拧紧、水量是多少、地面材质是什么、受力方向如何、撞击会传导到哪里。
悟界·Physis尝试将视频、RGB-D、3D点云、力触反馈等全模态信息压缩和统一到隐空间中——模型不是在简单预测下一帧画面,而是在latent space中学习状态的演化。它具备四类核心能力:物理一致性、动作因果性、长程可推演性、通用泛化性。潜在应用场景包括严肃工业、具身智能、物理仿真、科学研究等真实物理场景。
如果说悟界·Physis更像“物理底座”,那么悟界·RoboBrain Orca更接近“机器人大脑”。智源的定义是:以下一个物理状态预测为核心的具身大脑,具备统一表征、因果推演、模态解码三大核心能力。
过去两年,VLA几乎是机器人“大脑”的主流叙事——机器人通过视觉观察环境,通过语言理解人类指令,再把理解转化为动作输出。它已经推动机器人在分拣、抓取、包装、酒店服务等特定场景中落地。但VLA的短板也很明显:泛化不够、长程任务不稳、复杂场景中的物理理解不足,在真实机器人上部署时还会遇到延迟、算力和响应频率问题。王仲远说得很直接:“VLA是当下,世界模型是未来。”VLA能让机器人听懂指令、看到环境、做出动作,但对世界变化的预测能力还不够。机器人不能只是执行,它还要能在行动前想一想:这个动作之后会发生什么?
悟界·RoboBrain Orca要解决的,正是具身智能里更底层的问题。它试图让机器人像人类一样,不仅执行指令,还能感知环境、理解状态、预判后果、规划动作,并在执行后根据反馈继续调整。从技术范式上看,它试图从Next Token、Next Frame、Next Action Prediction升级到Next Physical State世界状态预测,将语言、视觉、动作等信息统一到状态表征中,使模型能够同时生成语言思考、视觉预测和动作决策——实现“想、看、动”三位一体。如果机器人要端一杯水给人,它需要知道杯子有没有盖子、水会不会洒、路线中是否有障碍、机械臂抓握是否稳定、失败后如何调整。这正是世界模型要解决的深层问题。

世界模型卡点在哪?还在大语言模型的2012年
用大语言模型的发展阶段类比,今天的世界模型走到哪里了?王仲远的判断是:世界模型还处在大语言模型的2012年(深度学习阶段),非常早期。他展开了一个时间线推演:2006年Hinton提出深度信念网络;2012年AlexNet在ImageNet上大放异彩,深度学习进入产业化视野;但直到2018年Transformer和大规模预训练才真正成熟;2024年底ChatGPT爆发。从理念萌芽到改变世界的产品,走了将近二十年。世界模型需要这么长的周期吗?王仲远认为可能不需要——“随着人工智能越来越强,演化速度越来越快,可能三年五年就有足够多的数据累积。”但他同时强调,“世界模型的周期”可能是三年甚至更长时间,是一个十年维度的命题,短期价值体现在技术验证而非商业兑现。
目前,方向已经显现,大家意识到它的重要性,但技术路线尚未收敛,数据远远不足,评测标准也不清晰,还没有出现像GPT-3.5或ChatGPT那样让行业形成共识的产品。在王仲远看来,世界模型面临以下难点:
第一个卡点:怎么把物理规律教给模型。人类看到一瓶水快要跌落,会天然预判接下来会发生什么——瓶子是盖着的还是没盖着的、里面有多少水、桌面什么材质、落地后会不会碎。但模型不会天然拥有这些物理直觉。视频生成模型可以生成一段“水杯倒下”的画面,但这段画面是否真的符合物理规律,是另一回事。
第二个难点:长时间序列一致性。很多视频生成模型可以从5秒、10秒延长到更久,但看起来更长并不等于真正理解了时间。王仲远举例:如果给一个瓶子里加水,旁边放一个时钟,模型进行状态预测。镜头移开又移回来,时钟是不是真的经过了10秒或20秒?水平、动作和环境是否保持一致?今天的很多视频模型可以生成看似连续的长视频,但不一定符合真实物理世界的时间规律。
第三个难点:怎么把Action教给模型。世界模型必须理解动作和后果之间的因果关系。机器人推一下、夹一下、拧一下、倒一下,都会带来不同的状态变化。如果没有动作数据、没有交互反馈,模型很难真正知道“我做了什么”和“世界发生了什么变化”之间的关系。
第四个难点:数据的匮乏。大语言模型之所以爆发,一个关键原因是互联网文本足够多。图像和视频模型也受益于海量互联网视觉数据。但世界模型需要的数据复杂得多——它需要真实物理世界中的多模态数据:视觉、声音、动作、时间、空间、物体状态、机器人轨迹、人类指令、执行反馈、成败结果。更重要的是,这些数据必须能反映真实因果关系,而不是只呈现表面画面。这类数据目前远远不够。
但王仲远表示,世界模型不可能等到“数据完全Ready”之后再做。具身智能和真实物理场景的落地本身也会形成数据闭环——工厂分拣、酒店服务、仓储搬运等场景,虽然一开始只是解决具体问题,但落地过程中采集到的数据,反过来会帮助未来世界模型训练。世界模型的发展不是先有完美数据、再有完美模型,而是模型、场景和数据共同迭代。这也是智源为什么愿意在世界模型还不成熟时提前投入。“我们看到了一些可能的方向,但仍需要全世界一同努力。”他说。

结语:世界模型,中美在同一起跑线
在大语言模型领域,业界普遍认为中国和美国差距在6-12个月。但当问到世界模型的中美差距时,王仲远给出了一个出人意料的答案:“没有差距,中美在同一起跑线上。因为方向都刚刚开始。”
从行业竞争来看,短期内呈现“百花齐放”的状态,各类技术路线持续并存:视频生成团队、3D数字场景团队、传统大模型厂商、车企、具身智能企业都会入局。大家的研发目标和技术路径各不相同,短时间内难以形成统一标准。长期来看,能否打造出通用世界基座模型,将是决定胜负的关键。世界模型不是一场短暂的风口,而是人工智能发展的必经之路。
