6月29日消息,小鹏汽车今日放出重磅技术突破——正式发布X-Mind技术框架。通俗而言,这套系统让车载智能体真正具备“预判未来”的能力。其核心思路是将一个可预测未来状态的世界模型,直接嵌入到大型驾驶模型中,从而有效解决了认知推理与实时计算之间长期存在的矛盾。简而言之,小鹏宣称他们的自动驾驶终于拥有了一颗能够“预见未来”的大脑。

接下来拆解X-Mind的具体工作原理。整体架构可以理解为:将预测世界模型无缝地集成到庞大的驾驶模型之中。在实现层面,采用了循环块扩散机制。该机制允许网络在单次前向传播时,在不同内部层上逐步进行去噪处理,最终生成一张紧凑的抽象“思维草图”。基于这张对未来物理世界进行推演的草图,规划器便能计算出最优的自车行驶轨迹。
值得注意的是,小鹏研发团队将视觉思维链(Visual CoT)进行了实例化应用。这意味着,车辆在执行动作之前,必须先完成显式的时空推演。这就像一位经验丰富的老司机,在驾驶过程中总会提前预判几秒钟后的路况——哪里可能减速、哪辆车可能变道,全都提前做到心中有数。这样一来,每一条规划出的路径,都已充分考虑了未来交通流的动态变化,具备了更强的防御性驾驶能力。
X-Mind还有一个非常独特的特点:它不再过度依赖高清纹理。相反,它构建了一种融合了鸟瞰图布局和抽象驾驶先验的“认知画布”。这张思维草图上包含了哪些内容?物理场景元素(车道线、障碍物)、动态交通灯状态、自适应导航意图,以及合规的车速轮廓。可以说,它画出的不是一张精美的城市风景照,而是一张对驾驶决策至关重要的“逻辑示意图”。
这里的关键优势在于,通过深度压缩自编码器,X-Mind能够将未来12帧的世界推演,极致压缩到仅96个Token。相比之下,如果使用原始图像或昂贵的3D重建作为中间表示,数据量会庞大得多。而思维草图的高明之处在于,它能更高效地过滤掉与规划无关的纹理干扰,只保留道路拓扑、交通灯状态和导航意图这些核心语义先验。这从根本上解决了长上下文带来的计算瓶颈。
小鹏透露,在包含数亿帧真实世界数据的训练集上,X-Mind的表现相当出色。无论是前车急刹、匝道汇入,还是复杂的十字路口博弈,它都能提前推演出障碍物的占位以及整个场景的因果链条。从对比实验数据来看,成果是实打实的:
精度提升: 相比传统VLA模型,X-Mind在横向和纵向的轨迹预测误差上均有显著降低。特别是在那些复杂且不常见的长尾场景下,安全性和合规性得到了大幅提升。
效率革命: 相比使用原始图像或3D高斯溅射作为中间表示的方案,X-Mind的推理延迟极低,具备了在资源受限的车规级芯片上量产落地的可行性。这才是它真正能够“上车”的关键所在。
除此之外,还有一条值得关注的消息。小鹏汽车CEO何小鹏6月26日在微博透露,VLA 2.0正在走向全球,并且已经进入确定模式。他提到,联合国WP29缔约国会议批准了两项关键法规:一是DCAS UNR 171 series 02,对应城区NGP功能法规;二是UNR ADS,对应L3-L5自动驾驶法规。其中前者将在六个月后生效,成为欧盟强制法规。这意味着,到2026年底,自动驾驶合法进入全球市场,已经不再是遥远的愿景。
