AI视频生成的物理短板：世界模型为何难解真实规律

时间：2026-06-14 11:11

世界模型概念被滥用，视频生成仅为像素级模拟，无法预测物理状态。智能体架构虽无差距，但基座模型能力与成本制约落地。AI正从语言模型向物理世界模型演进，行业亟需正本清源，突破数据、评测与技术路线等瓶颈。

踏入2025年，AI领域的热议话题中，“世界模型”无疑占据了顶峰。从OpenAI的Sora引发全球对“物理世界模拟”的无限畅想，到斯坦福大学李飞飞团队清晰界定世界模型的技术路径，再到英伟达重磅推出Cosmos系列模型——全球顶尖实验室与科技巨头纷纷涌入这条赛道。然而，热潮之下，概念泛化、技术路线分歧、评估标准空缺等乱象也随之凸显。

视频生成≠世界模型：当AI还在生成“天上飞的猪”，物理规律仍是最大短板

近期，北京智源人工智能研究院院长王仲远在一次深度访谈中，针对世界模型的技术路线之争、智能体的实际应用瓶颈、AI与神经科学的交叉融合，以及国内AI生态的构建，分享了一系列深刻洞见。他认为，人工智能领域正经历一场关键的范式转移——从过去十年由大语言模型主导的“文本理解”时代，逐步转向面向真实物理世界的“状态预测”时代。当前行业最迫切需要的，并非概念炒作，而是在厘清本质之后，展开扎实而持续的技术探索。

热潮中的清醒：厘清世界模型的核心定义与技术路径

短短半年间，“世界模型”从一个相对小众的学术概念，迅速演变为行业内的流行术语。但与此同时，这一概念也面临着被过度使用的困境。许多视频生成模型、3D场景重建工具乃至多模态大模型，都纷纷冠以“世界模型”之名。而业界对其准确定义、核心技术路线以及客观评测标准，始终未能达成广泛共识。

王仲远系统地将世界模型的技术路径划分为四大类别：第一类是以语言为核心的世界模型，涵盖大语言模型、视觉语言模型以及视觉语言行动模型，其本质是将视觉、行动等多种模态信息映射到统一的语言空间进行理解与推理；第二类是以像素为中心的世界模型，以视频生成为典型代表，其核心任务是预测下一帧的画面内容——尽管它并非直接预测物理状态，但与之高度相关；第三类是以三维结构为基石的世界模型，例如高精度3D重建技术；第四类则是以视觉特征为枢纽的世界模型。

一个有趣的现象是，目前被广泛视为世界模型代表的视频生成技术，本质上仅实现了像素层面的序列模拟，距离真正具备物理状态推演能力的通用基座模型尚有巨大差距。“视频生成模型完全可以合成‘一群猪在空中与飞机齐飞’的画面，因为其训练数据中包含大量科幻电影素材，其设计目标本就非还原真实物理法则。”王仲远明确指出，当前所有类型的世界模型，与那种能够深度理解、精准预测并自如交互于真实物理世界的理想模型相比，差距都十分显著。整个领域，仍处于非常初期的探索阶段。

对行业而言，比技术分类更为根本的，是世界模型所引发的核心范式变革——即从大语言模型时代的“预测下一个词元”，演进到世界模型时代的“预测下一个物理状态”。

“人类看到一只杯子放在桌缘且倾斜，便能预判它可能坠落摔碎。这种对真实物理世界的状态感知、规律理解与决策推演，正是未来世界模型需要掌握的核心能力。”王仲远举例说明：当前的大语言模型或许能在高考数学中取得接近满分的成绩，也能准确回答“铁碗不能放进微波炉”这类常识问题。然而，尚未有任何机器人的“大脑”能真正在物理世界中执行这些判断与操作。这正是世界模型亟待攻克的核心命题。

要实现这一宏伟目标，行业仍需跨越数道关键障碍。首先是数据瓶颈，特别是真实物理世界数据的匮乏，以及究竟需要何种形式和质量的数据，目前仍无明确路径。其次是评估体系的缺失——现有的评测大多集中于视频生成的质量，根本无法衡量世界模型作为通用基座的核心能力。最重要的是，技术路线尚未收敛，业界对于如何高效训练世界模型仍未形成共识。未来三到五年，都将是世界模型持续演进与探索的关键时期。

智能体应用：架构并驾齐驱，瓶颈在于基座能力与成本控制

如果说世界模型代表着AI的未来技术方向，那么智能体便是当下最炙手可热的落地应用赛道。自去年以来，各类终端智能体、办公助手、科研辅助工具层出不穷。但行业的普遍感受是“愿景美好，体验欠佳”，真正能达到用户高期待的产品屈指可数。

王仲远的判断非常明确：国内智能体的整体技术架构与国际顶尖水平相比并无代差。用户体验不佳的核心原因，从来不是架构设计问题，而在于其背后的基座模型能力、高昂的运行成本以及长期记忆能力的缺失。中国在工程化落地与场景应用方面本就有深厚积累，很多时候用户感觉国产智能体体验不足，实质上是其依赖的基座模型在理解、推理等核心能力上尚有差距，而非架构本身。目前，智能体在诸多场景中已达到可用甚至好用的水平，尤其是在信息调研、资料归纳、报告撰写等领域，其效率提升已非常显著。

他分享了亲身经历：有一次准备一份重要发言稿，自己花了数个晚上整理素材和构思，而使用智能体仅用五分钟便生成了质量不相上下、甚至在某些数据细节上更为详实的版本。王仲远认为，智能体在提升知识工作效率方面，已经达到了相当高的水准。但广泛推广仍面临挑战——如果部署一个智能体每月需要消耗数万乃至数十万元的算力资源，并非所有个人或企业都能承受；此外，许多智能体缺乏持续学习能力，今天教会它的任务，过几天可能就会遗忘，没有形成长期记忆与进化机制，这自然会削弱用户体验。

比产品体验更为深远的影响，在于智能体与AI编程共同引发的产业范式变革。近期腾讯披露其“新增代码大部分由AI生成”的现状，在王仲远看来，这揭示了一个深刻趋势：人类数字世界的底层逻辑是由代码构筑的，当AI编程成为主流，意味着整个数字世界都将被AI逐渐重塑。未来，程序员的角色将更多地转向系统架构师或代码评估师，游戏、软件、应用程序的创作都将有AI深度参与。这种对数字世界底层构造乃至产业组织形态的冲击，比世界模型的到来更为迅速和直接。

伴随而来的，是“AI原生组织”理念的兴起。但王仲远指出，目前这更多仍停留在概念探讨阶段。AI原生组织的本质，是试图回答一个根本问题：如果推倒重来，基于最先进的AI基础设施，企业的组织形式应该是怎样的？AI智能体在其中扮演何种角色，人类员工的价值又该如何定位？各方仍在摸索中，尚未出现真正可规模复制的最佳实践案例。

他认为，相比企业组织变革，更值得社会关注的是AI对下一代人才培养模式的深远影响。这也是今年智源大会首次设立“AI Native教育”论坛的初衷——当AI能够编写代码、进行调研、生成内容时，未来的劳动者究竟需要具备哪些核心能力？传统的编程教育是否仍需作为重点？这些问题不仅关乎教育体系的改革，更关系到整个AI时代的社会根基与人才竞争力。

来源：https://www.163.com/dy/article/KV9VQBJI053469RG.html

世界模型