3月17日,IT之家报道,理想汽车产品架构负责人詹锴今日出席NVIDIA GTC 2026大会,发表题为《MindVLA-o1:开启全能范式——下一代统一视觉-语言-动作自动驾驶大模型探索》的主题演讲,正式发布了理想汽车新一代自动驾驶基础模型MindVLA-o1。

据介绍,MindVLA-o1通过五大技术创新——3D空间理解、多模态思考、统一行为生成、闭环强化学习和软硬件协同设计,构建了面向物理世界智能的自动驾驶基础模型。
据IT之家了解,该模型的核心突破可概括为以下五个维度:
看得更准:传统系统更多是在处理平面图像,而MindVLA-o1结合摄像头和激光雷达,通过3D编码器让车辆能够像人类一样感知物体的深浅、距离和运动状态,真正理解三维物理空间。
想得更深:这是首个能够“脑补”未来场景的模型。通过隐世界模型,它不仅看到现在,还能在隐形空间里提前“预演”未来几秒可能发生的场景,从而做出更有预见性的决策。
行得更稳:系统采用VLA-MoE架构,专门配备了“动作专家”。它能同时生成所有行驶轨迹点,并通过类似“去噪”的优化过程,确保车辆开得既顺滑又符合物理规律。
进化更快:理想构建了一个强大的世界模拟器。模型不仅在马路上学,还能在虚拟世界里进行大规模、高效率的自我练习和策略优化,大幅降低了训练成本。
部署更高效:通过研究模型精度与硬件延迟的平衡,理想将架构设计的时间从几个月缩短到几天,让复杂的大模型能更流畅地跑在车载芯片上。
