斯坦福大学教授、World Labs联合创始人兼CEO李飞飞,近期携团队发表了一篇关于“世界模型”的重要论文《世界模型的功能分类》。这并非一篇单纯普及概念的文章——事实上,近年来“世界模型”一词已被不同赛道的从业者赋予了多种解读,几乎每个领域都有各自的理解,定义之混乱令人困扰。李飞飞团队的工作,正是系统性地剖析这种混乱,为“世界模型”确立清晰的定义框架。

从计算机视觉、机器人技术,到强化学习、生成式AI,各领域都在积极研发世界模型,但彼此所指的内涵却大相径庭。这项研究的切入角度非常务实——李飞飞基于强化学习中经典的POMDP(部分可观测马尔可夫决策过程)框架,为世界模型构建了一套条理清晰的功能分类体系,旨在让不同领域能够在同一张地图上展开对话。
在梳理世界模型各项能力时,李飞飞团队将其归纳为三大功能类别:渲染器、仿真器、规划器。
首先是渲染器——它的核心任务是输出供人观看的像素画面。评判其好坏的标准十分直观,即视觉上的还原程度。只要画面的视觉效果令人信服,渲染器便算达标。
其次是仿真器——该模块输出的是符合客观规律的环境状态。其核心要求在于恪守“结构真实性”,也就是说,模型输出的状态必须尊重现实世界的物理法则与逻辑约束。这一要求显然比单纯追求高像素要困难得多。
最后是规划器——它直接输出智能体的动作指令,借助观测信息与预设目标制定行动方案。规划器更偏向决策层面,不关心像素画质,只关注任务能否顺利达成。
文章中重点论证了一个常被忽视的观点:尽管仿真器在三者中受到的关注度最低,但它却具备最深远的产业价值,同时也伴生着最为棘手的技术挑战。为何如此?因为仿真器正是连接渲染与规划的桥梁。机器人训练、自动驾驶测试、建筑可视化等众多领域,都需要一个可靠的仿真器来模拟真实环境。然而现实是,仿真赛道面临多重困境:三维数据稀缺、仿真与现实的域差、生成式仿真存在的几何隐患、多物理场仿真带来的高算力成本——每一条都是难以啃下的硬骨头。
当然,李飞飞团队并未止步于分类阶段。文章进一步指出,三类模型底层共享同一套世界知识,当前最令人振奋的趋势是三者之间的边界正在不断消融。未来的方向已然清晰:从分裂走向融合统一。最终目标,是一个能够灵活切换输出形式的大一统世界基础模型。在同一套模型架构中平衡渲染、仿真与规划这三重需求,正是当前世界模型领域最核心的攻关课题。
