小鹏汽车近日发布了重大技术成果——全新X-Mind自动驾驶技术框架。其核心思路与众不同:并非让车辆简单识别道路环境,而是使模型具备“主动思考”能力,将预见性提升到新的高度。

具体而言,X-Mind的架构将一个预测性世界模型直接内嵌于大型驾驶模型中。借助循环块扩散机制,在单次前向传播过程中,通过不同内部层的渐进式去噪步骤,生成一张紧凑的抽象草图。随后,规划器基于对未来物理世界的推演,计算最优自车轨迹。简单来说,就是让车辆在行动之前,预先做到心中有数。
研发团队还引入了“视觉思维链”(Visual CoT)。在规划动作前,车辆先进行一次显性的时空推演,这如同经验老到的驾驶员——不仅关注眼前,更能提前预判后续几步。每一条规划路径都会把未来交通流的变化纳入考量,从而使防御性驾驶能力实现质的飞跃。

值得一提的是,X-Mind并未追求高清纹理细节,而是构建了一种融合鸟瞰图(BEV)布局与抽象驾驶先验的“认知画布”。在这张思维草图中,仅保留最关键信息:车道线、障碍物、动态交通灯状态、自适应导航意图以及合规车速轮廓。其余冗余的纹理干扰被有效过滤。
这里有一个关键突破:通过深度压缩自编码器(DC-AE),团队将12帧的未来世界推演压缩至仅96个Token。相比直接使用高冗余图像或昂贵的3D重建方式,思维草图显然更加高效——只保留道路拓扑、交通灯状态和导航意图等核心语义,从根本上解决了长上下文带来的计算瓶颈。

训练数据量同样惊人——包含数亿帧真实世界数据。无论是前车急刹、匝道汇入,还是复杂的十字路口博弈,X-Mind都能提前推演出障碍物占位及场景因果链条。对比实验数据表明:
精度提升:相比传统VLA模型,X-Mind在横向和纵向的轨迹预测误差(ADE)上均有显著降低,尤其在复杂长尾场景下,安全性与合规性大幅提升。
效率革命:与使用原始图像或3D高斯溅射(3DGS)作为中间表示的方案相比,X-Mind的推理延迟极低,具备了在资源受限的车规级芯片上量产落地的可行性。

再看一个更大的背景。小鹏汽车CEO何小鹏日前透露,联合国WP29缔约国会议批准了DCAS UNR 171 series 02和UNR ADS两项法规。前者对应城区NGP功能法规,后者对应L3-L5自动驾驶法规。DCAS法规将在六个月后生效成为欧盟强制法规,这意味着到2026年底,自动驾驶在法规层面可以合法进入全球市场。

