6月29日,小鹏汽车再度发布了一项重磅技术论文——X-Mind,其核心思路是将世界模型“预测未来”的能力无缝融入第二代的VLA自动驾驶大模型中。这一进展并非孤立事件。就在前不久,被誉为“AI界奥斯卡”的CVPR大会上,英伟达、特斯拉、小鹏三家同台演讲,小鹏通用智能中心负责人刘先明现场展示了物理AI的最新成果,并首次公开了世界模型的技术图谱——详细阐述了小鹏世界模型如何逐步进化出预测未来、可控生成以及长时序推演的能力。X-Mind作为其中一篇重磅论文,进一步加深了业界对纯视觉方案大模型训练路径的理解与信心。

从原理上看,X-Mind的设计极具巧思。它提出了一种“思维草图”机制——将未来12帧的世界推演压缩到仅有96个Token,却能完整保留道路拓扑、交通灯状态等核心语义信息,从而一举破解了长上下文计算的瓶颈。接着,通过“递归块扩散机制”,单次前向传播即可生成高质量的未来推演,几乎不增加推理延迟。最后,配合“思维链可视化”技术,模型在做出决策之前就能展示其对障碍物占位和车道连通性的预判——简单说,就是先在模型内部模拟一遍“如果……会怎样”的推理过程。
对比实验的数据极具说服力:X-Mind在轨迹预测误差上较传统VLA模型大幅降低,推理延迟也被压制到极低水平,完全具备在车规级芯片上量产落地的可行性。该框架与X-World、X-Foresight共同构成了小鹏物理AI的基座模型研发谱系,将主动思考、可控生成、长时序推演三大核心能力真正串联成了一个整体。
