踏入2025年,AI领域的热议话题中,“世界模型”无疑占据了顶峰。从OpenAI的Sora引发全球对“物理世界模拟”的无限畅想,到斯坦福大学李飞飞团队清晰界定世界模型的技术路径,再到英伟达重磅推出Cosmos系列模型——全球顶尖实验室与科技巨头纷纷涌入这条赛道。然而,热潮之下,概念泛化、技术路线分歧、评估标准空缺等乱象也随之凸显。

近期,北京智源人工智能研究院院长王仲远在一次深度访谈中,针对世界模型的技术路线之争、智能体的实际应用瓶颈、AI与神经科学的交叉融合,以及国内AI生态的构建,分享了一系列深刻洞见。他认为,人工智能领域正经历一场关键的范式转移——从过去十年由大语言模型主导的“文本理解”时代,逐步转向面向真实物理世界的“状态预测”时代。当前行业最迫切需要的,并非概念炒作,而是在厘清本质之后,展开扎实而持续的技术探索。
热潮中的清醒:厘清世界模型的核心定义与技术路径
短短半年间,“世界模型”从一个相对小众的学术概念,迅速演变为行业内的流行术语。但与此同时,这一概念也面临着被过度使用的困境。许多视频生成模型、3D场景重建工具乃至多模态大模型,都纷纷冠以“世界模型”之名。而业界对其准确定义、核心技术路线以及客观评测标准,始终未能达成广泛共识。
王仲远系统地将世界模型的技术路径划分为四大类别:第一类是以语言为核心的世界模型,涵盖大语言模型、视觉语言模型以及视觉语言行动模型,其本质是将视觉、行动等多种模态信息映射到统一的语言空间进行理解与推理;第二类是以像素为中心的世界模型,以视频生成为典型代表,其核心任务是预测下一帧的画面内容——尽管它并非直接预测物理状态,但与之高度相关;第三类是以三维结构为基石的世界模型,例如高精度3D重建技术;第四类则是以视觉特征为枢纽的世界模型。
一个有趣的现象是,目前被广泛视为世界模型代表的视频生成技术,本质上仅实现了像素层面的序列模拟,距离真正具备物理状态推演能力的通用基座模型尚有巨大差距。“视频生成模型完全可以合成‘一群猪在空中与飞机齐飞’的画面,因为其训练数据中包含大量科幻电影素材,其设计目标本就非还原真实物理法则。”王仲远明确指出,当前所有类型的世界模型,与那种能够深度理解、精准预测并自如交互于真实物理世界的理想模型相比,差距都十分显著。整个领域,仍处于非常初期的探索阶段。
对行业而言,比技术分类更为根本的,是世界模型所引发的核心范式变革——即从大语言模型时代的“预测下一个词元”,演进到世界模型时代的“预测下一个物理状态”。
“人类看到一只杯子放在桌缘且倾斜,便能预判它可能坠落摔碎。这种对真实物理世界的状态感知、规律理解与决策推演,正是未来世界模型需要掌握的核心能力。”王仲远举例说明:当前的大语言模型或许能在高考数学中取得接近满分的成绩,也能准确回答“铁碗不能放进微波炉”这类常识问题。然而,尚未有任何机器人的“大脑”能真正在物理世界中执行这些判断与操作。这正是世界模型亟待攻克的核心命题。
要实现这一宏伟目标,行业仍需跨越数道关键障碍。首先是数据瓶颈,特别是真实物理世界数据的匮乏,以及究竟需要何种形式和质量的数据,目前仍无明确路径。其次是评估体系的缺失——现有的评测大多集中于视频生成的质量,根本无法衡量世界模型作为通用基座的核心能力。最重要的是,技术路线尚未收敛,业界对于如何高效训练世界模型仍未形成共识。未来三到五年,都将是世界模型持续演进与探索的关键时期。
智能体应用:架构并驾齐驱,瓶颈在于基座能力与成本控制
如果说世界模型代表着AI的未来技术方向,那么智能体便是当下最炙手可热的落地应用赛道。自去年以来,各类终端智能体、办公助手、科研辅助工具层出不穷。但行业的普遍感受是“愿景美好,体验欠佳”,真正能达到用户高期待的产品屈指可数。
王仲远的判断非常明确:国内智能体的整体技术架构与国际顶尖水平相比并无代差。用户体验不佳的核心原因,从来不是架构设计问题,而在于其背后的基座模型能力、高昂的运行成本以及长期记忆能力的缺失。中国在工程化落地与场景应用方面本就有深厚积累,很多时候用户感觉国产智能体体验不足,实质上是其依赖的基座模型在理解、推理等核心能力上尚有差距,而非架构本身。目前,智能体在诸多场景中已达到可用甚至好用的水平,尤其是在信息调研、资料归纳、报告撰写等领域,其效率提升已非常显著。
他分享了亲身经历:有一次准备一份重要发言稿,自己花了数个晚上整理素材和构思,而使用智能体仅用五分钟便生成了质量不相上下、甚至在某些数据细节上更为详实的版本。王仲远认为,智能体在提升知识工作效率方面,已经达到了相当高的水准。但广泛推广仍面临挑战——如果部署一个智能体每月需要消耗数万乃至数十万元的算力资源,并非所有个人或企业都能承受;此外,许多智能体缺乏持续学习能力,今天教会它的任务,过几天可能就会遗忘,没有形成长期记忆与进化机制,这自然会削弱用户体验。
比产品体验更为深远的影响,在于智能体与AI编程共同引发的产业范式变革。近期腾讯披露其“新增代码大部分由AI生成”的现状,在王仲远看来,这揭示了一个深刻趋势:人类数字世界的底层逻辑是由代码构筑的,当AI编程成为主流,意味着整个数字世界都将被AI逐渐重塑。未来,程序员的角色将更多地转向系统架构师或代码评估师,游戏、软件、应用程序的创作都将有AI深度参与。这种对数字世界底层构造乃至产业组织形态的冲击,比世界模型的到来更为迅速和直接。
伴随而来的,是“AI原生组织”理念的兴起。但王仲远指出,目前这更多仍停留在概念探讨阶段。AI原生组织的本质,是试图回答一个根本问题:如果推倒重来,基于最先进的AI基础设施,企业的组织形式应该是怎样的?AI智能体在其中扮演何种角色,人类员工的价值又该如何定位?各方仍在摸索中,尚未出现真正可规模复制的最佳实践案例。
他认为,相比企业组织变革,更值得社会关注的是AI对下一代人才培养模式的深远影响。这也是今年智源大会首次设立“AI Native教育”论坛的初衷——当AI能够编写代码、进行调研、生成内容时,未来的劳动者究竟需要具备哪些核心能力?传统的编程教育是否仍需作为重点?这些问题不仅关乎教育体系的改革,更关系到整个AI时代的社会根基与人才竞争力。
