先说说我最近的感受:世界模型这个原本偏学术的概念,正迅速变成一种“技术热词”。

一群猪能在天上和飞机一起飞吗?现实世界当然不行,但视频生成模型可以。原因很简单——它的训练数据里塞满了科幻电影,目标从来就不是还原真实的物理规律。2026北京智源大会上,智源研究院院长王仲远用这个例子,一下子把“世界模型”这个话题推到了台前。
ChatGPT让AI学会了“遣词造句”,Sora则展示了“脑补画面”的惊人能力,但这背后依然是“知其然不知其所以然”。
不过,这种特性在产业界正越来越明显地被卡住脖子:自动驾驶不敢在复杂路口完全放手,机器人在陌生环境中频频“翻车”……这正是世界模型试图填补的空白——让AI真正去理解那个我们能感知到的物理世界。
学术界把世界模型看作是实现AGI(通用人工智能)的关键拼图,产业界则把它视为突破具身智能泛化瓶颈的核心技术。两种视角,指向同一个方向。
今年以来,这个方向从学术概念迅速演变为产业风口。1月,吉利发布WAM世界行为模型;3月,小鹏发布X-World;5月,小米汽车推出Xiaomi Auto World Model全新框架,地平线也拿出了HorizonDrive……几乎每一家智能驾驶头部企业,都在争相贴上“世界模型”的标签。
与此同时,面向更广泛物理世界的通用世界模型,正成为全球学术界攻坚的重点。斯坦福大学教授李飞飞团队的World Labs Marble模型,从3D重建入手,试图构建“空间智能”,核心是让AI理解和模拟三维世界;图灵奖得主杨立昆(Yann LeCun)提出的JEPA系列模型则另辟蹊径,主张在抽象的“表征空间”内进行预测;北京智源研究院也发布了悟界·Physis-v0.1,聚焦统一物理状态建模,力求从物理本质出发实现因果推理。
关于“世界模型”的定义,学术界至今仍有争议。王仲远坦言,“这些探索距离真正面向物理世界的基座模型都还有不小差距”。现在仍处于世界模型的早期阶段,依然需要大量的科研探索工作,“未来三到五年将是世界模型持续迭代期”。
瓶颈是显而易见的:真实物理数据匮乏、技术路线尚未收敛、评测体系不完善——每一个都是硬骨头。
中国工程院院士王坚则看得更宏观:“从人的角度理解智能是什么,到今天还远远是个未知数。”在他看来,中美科研界面对的是“同一片海”,真正的动力,始终来自工程实践与理论认知的相互推动、交错前进。
从“仿其形”到“悟其道”,AI认识真实世界的旅程,才刚刚起步。
