今日,小米汽车正式推出名为Xiaomi Auto World Model的全新框架,为自动驾驶领域的世界模型技术演进开辟了创新路径。此举标志着行业技术正从初级的“环境感知”阶段,向具备“认知推理与场景演化”能力的高阶形态深度迈进。

简而言之,该框架的核心创新在于,它首次实现了三维场景重建与动态视频生成技术的深度融合,构建了一个统一的计算架构。其设计哲学可总结为“以重建锚定几何基础,用生成拓展场景想象”。这一全新范式,突破了业界长期以来将重建与生成视为两条平行技术路线的传统思维。
在实际性能表现上,该框架已在Waymo、nuScenes等国际主流自动驾驶基准测试中,全面取得了SOTA(State-of-the-Art,即当前最优)评级。尤为关键的是,该技术已超越纯理论研究阶段,成功落地于小米汽车的核心业务环节,包括合成数据生产、仿真验证平台以及智能座舱系统,实现了从技术研发到产业应用的全链路贯通。
▲ Xiaomi Auto World Model 核心技术效果演示
要深入理解这一框架的价值,需先厘清当前自动驾驶世界模型的两大主流技术方向:基于重建的方法(WorldRec)与基于生成的方法(WorldGen)。
重建路线的核心优势在于“精准还原”。它通过多视角传感器数据恢复出几何结构精确的三维场景,具有极高的保真度与时空一致性。然而,其局限性在于仅能复现已观测到的内容,缺乏对未知区域或未来可能发生的场景进行预测与“构想”的能力。
生成路线的特长则在于“场景推演”。借助扩散模型等先进算法,它能够直接预测未来帧序列,并生成未曾观测到的视角或全新场景。但其挑战在于缺乏显式的三维结构约束,在长时间序的推演过程中,容易出现画面失真、结构漂移等问题,如同想象缺乏锚点而易偏离现实。
那么,是否存在一种方案,能够融合二者之长,并规避其各自短板?Xiaomi Auto World Model 给出的解决方案正是“深度耦合一体化”。
该框架使重建模块与生成模块在架构层面相互制约、协同演进。重建模块产出精确的三维几何结构,作为整个系统的“空间锚点”,为生成过程提供稳定的物理约束;生成模块则将其预测能力拓展至观测边界之外,弥补了重建技术在想象力层面的不足。二者形成协同增强的闭环,最终在三个关键维度上实现了超越简单叠加的融合效应:
卓越的时序稳定性:重建提供的确定性几何约束,有效抑制了在长序列自回归推演中常见的误差累积与内容漂移现象。
高度的全局一致性:通过4D场景表征作为跨时间帧共享的“场景记忆”,确保了不同时刻、不同视角下的生成内容在全局语义与结构上保持连贯统一。
逼真的场景真实性:生成模块以重建渲染出的图像作为“几何骨架”,使得合成内容既符合真实世界的物理布局,又逼近真实传感器的成像特性,从而显著缩小了“虚拟仿真”与“现实世界”之间的领域差距。
▲ WorldGen 技术在极端驾驶场景下的生成效果
技术的终极价值在于落地应用。目前,Xiaomi Auto World Model 已在小米汽车的三大核心业务场景中实现规模化部署:
高质量合成数据生成:已累计产出超过10万段高保真合成数据,直接用于训练车辆感知模型。这显著提升了自动驾驶系统在面对危险、长尾等罕见场景时的识别鲁棒性与决策安全性。
高精度闭环仿真测试:基于该框架构建的仿真环境,不仅大幅提升了测试效率与规范覆盖度,更能精准复现真实世界中的复杂事故场景,从而实现对特定算法的定向强化与优化验证。
沉浸式辅助驾驶教学:利用世界模型的动态场景生成能力,可创建第一人称视角的交互式教学视频。当用户遭遇复杂路况时,系统能够以生成式视频直观演示安全、规范的操作流程。目前,该功能以“实景模拟场景”模块的形式,已全面集成于小米全系车型的智能辅助驾驶学堂之中。
