图片系 AI 生产
近日,CVPR 2026在美国丹佛盛大开幕。作为计算机视觉领域的顶级学术会议,CVPR始终是洞察AI技术演进方向的关键窗口。今年的大会释放出一个更本质的转变信号:人工智能正在从“识别世界”全面迈向“理解世界、预测世界、并与世界交互”的新阶段。
这一趋势在自动驾驶领域体现得尤为突出。本届CVPR首次开设了具身智能基座模型部署专题研讨会,特斯拉AI软件副总裁Ashok Elluswamy、小鹏汽车集团通用智能中心负责人刘先明等一线技术负责人,分别分享了各自团队在具身智能与自动驾驶基座模型方面的最新成果。
Ashok重点阐述了特斯拉如何构建面向机器人的基座模型,涵盖大规模多模态模型的架构设计、数据采集与训练策略,以及从像素输入到执行控制的端到端“pixels-to-actuation”方法。此外,他还深入探讨了评测协议、安全考量及真实世界部署等关键议题。
相比学术概念,更值得关注的是车企对AI智驾底层能力的重新定义。当模型不再仅仅识别车辆、行人和车道线,而是直接从视频流、导航指令等输入中输出驾驶动作时,一个核心问题随之浮现:车企如何判断模型是否真正理解驾驶?又如何在低成本、可复现、可控的环境中验证其安全边界?
这也正是世界模型在本次CVPR上被推向台前的重要原因。
VLA之后,AI需要理解“世界的变化”
过去一年,VLA成为自动驾驶领域最炙手可热的技术关键词。它将视觉、语言和动作统一到同一模型框架中,使系统能够直接从视频流、导航指令等输入中生成驾驶动作。通俗地说,VLA就像在模仿人类驾驶员的操作方式。
去年CVPR上,刘先明曾介绍小鹏正在研发的第二代VLA模型;时隔不到一年,基于该模型的辅助驾驶软件已实现量产落地,推送首月辅助驾驶里程占比即超过50%。
然而,端到端智驾越往前走,另一个短板就越发突出:模型可以模仿人类驾驶行为,却未必真正理解每个动作背后的物理后果。例如,此刻选择变道,旁车是否会逼近?前车突然减速,系统能否平稳应对?世界模型要补足的,正是这种对物理后果的预判能力。
刘先明在演讲中指出,小鹏的物理世界基座模型既包含第二代VLA,也包括世界模型。二者并非路线之争:VLA学习“如何行动”,而世界模型学习“行动之后世界会如何变化”。
这背后折射出自动驾驶AI范式的深刻转变。以往模型主要依靠人类驾驶数据学习行为,但人类动作信号相对稀疏,只能告诉模型“最终怎么做”。世界模型则通过预测下一帧、下一状态或未来表征,从海量视频中学习交通环境的运动规律、空间关系和因果结构。换言之,它学习的是“世界将如何演变”。
X-World:让AI在视频空间里模拟未来
小鹏此次重点展示的X-World,是其世界模型体系中的代表性技术。根据论文描述,X-World是一个可控的多摄像头生成式世界模型。其输入包括历史多视角摄像头视频、未来自车动作,以及可选的动态交通参与者、静态道路元素、天气和时间等条件;输出则是未来一段时间内车辆多路摄像头可能看到的视频画面。
更直白地说,X-World并非简单生成一段“像道路”的视频,而是回答一个驾驶问题:如果车辆接下来执行某个动作,周围世界会变成什么样?
X-World采用七路环视摄像头,包括前窄角、前鱼眼、前左、前右、后左、后右和后视摄像头,形成360度环绕视野。这意味着它需要攻克一个核心难点:多摄像头一致的视频仿真。
论文指出,自动驾驶世界模型的难点在于,画面看起来真实远远不够,至少要满足三个要求:动作可控、场景可编辑、多视角一致。
首先是动作可控。同一初始场景下,如果输入右转、左转、变道或直行指令,模型生成的未来画面必须严格反映不同驾驶动作的结果。X-World展示了这种能力:根据不同的自车轨迹,它可以生成右转、左转、车道保持和变道等各异的未来视频。这对智驾评测意义重大——真实道路上,一辆车在一个路口只能做出一次选择;而在世界模型中,同一场景可以反复测试多种策略,观察等待、绕行、变道或刹停各会导致什么后果。
其次是场景可编辑。X-World不仅能控制自车动作,还能控制动态交通参与者和静态道路元素。动态对象包括车辆、行人、自行车,静态元素涵盖车道线、道路边界和交通标志。这意味着研发团队可以主动制造那些“长尾场景”:例如在原本正常的道路视频中,突然插入一个从遮挡车辆后方窜出的骑行者,再测试自动驾驶系统能否及时刹停。
第三是多视角一致与长时序稳定。自动驾驶仿真不能只保证前视画面流畅,还需确保前视、侧视、后视中的车辆、道路、边界关系彼此一致。为此,X-World在架构中引入了view-temporal self-attention机制,同时建模时间维度与多摄像头视角之间的关系,以保持跨视角几何一致性、目标身份一致性和运动连续性。论文展示了24秒多摄像头长序列生成结果,强调模型能够在较长时间内维持画面稳定,有效避免生成式模型常见的漂移问题。
AI智驾的新分水岭:路测之外,还要有仿真闭环
从行业视角看,世界模型的价值并不在于“视频生成得多逼真”,而在于它有望成为端到端智驾的训练场和考场。
这一趋势并非小鹏一家车企的独立判断。特斯拉的Ashok也讨论了构建机器人基座模型的原则和方法。这表明,全球头部玩家正在形成一种共识:自动驾驶已不仅是车辆功能的竞争,更是具身AI在真实物理世界中感知、决策、行动和持续学习能力的综合较量。
差异在于路径选择。特斯拉更加侧重利用大规模车队数据、端到端控制和机器人平台来打通能力;小鹏则试图通过VLA与世界模型相结合,补齐可控仿真、长时序推演和反事实测试这一层能力。
真实道路测试成本高昂、风险较大、难以复现,尤其难以覆盖那些低频但危险的场景。世界模型通过反事实推演和场景编辑,使同一个场景能被反复测试,罕见风险能被主动构造,模型在虚拟环境中提前暴露问题。
这说明,AI智驾竞争已不再是单点算法的比拼,而是模型、数据、算力、芯片、编译器和工程效率的系统性竞争。小鹏披露的数据显示,其第二代VLA模型拥有数十亿参数,使用上亿视频片段训练,每版模型训练量超过4万亿Token;截至今年3月的一年间,小鹏集群单GPU训练效率提升了1010%,单任务训练效率提升4360%,GPU硬件利用率从40%提升至90%。
当然,世界模型还不能简单等同于真实世界。生成视频稳定,不代表物理规律完全准确,尤其是在极端天气、复杂博弈、施工改道和非理性驾驶场景中,世界模型仍然需要大量真实数据来校准。因此,短期内它更像是真实路测之外的一层高效补充——用于构造长尾场景、进行反事实推演、开展闭环评测和强化学习训练。未来的智驾竞争,不仅看谁在路上跑得更多,也看谁能在云端造出更多真实、复杂、可复现的虚拟世界。
