近日,《21汽车·一见Auto》栏目与小米汽车智能驾驶基座大模型负责人陈龙展开了一场深度访谈。这位技术专家用一个形象的比喻,阐释了小米正在打造的智能驾驶系统:“就像人类成长一样,我们先学会说话、识字,再通过触摸和抓握来感知世界。当语言能力和空间理解成熟后,再去学习驾驶,就能将所有的认知融会贯通,不仅追求速度,更追求安全与舒适。XLA大模型的演进路径,正是遵循这一逻辑。”
今年3月,小米正式发布新一代SU7,并宣布其智能辅助驾驶系统已升级至XLA认知大模型架构。小米集团董事长雷军在发布会上特别说明了命名背后的思考:之所以采用“XLA”而非行业常见的“VLA”(视觉-语言-动作模型),是因为该模型具备“多模态认知输入”能力——除了视觉与语言信息,还整合了声音、机器人传感数据等多重信息维度,从而实现更全面的环境理解。

陈龙正是XLA认知大模型研发的核心推动者。童年时期,美剧《霹雳游侠》中那辆拥有自主意识、能够自动驾驶并协助主角化解危机的智能跑车KITT,在他心中播下了梦想的种子。此后,他的职业生涯始终围绕“让机器更懂驾驶”这一目标展开。在加入小米之前,陈龙曾任职于英国剑桥大学孵化的自动驾驶公司Wayve,是将VLA模型引入智能驾驶领域的早期探索者之一,其工作重点在于提升大模型决策过程的透明度与可解释性。一年前,他正式加盟小米,担任智能辅助驾驶VLA技术负责人。
当时,小米的智能驾驶架构仍处于“端到端+VLM”阶段。所谓“端到端”,是一种深度学习架构,旨在绕过传统自动驾驶系统中独立的感知、规划、控制模块,直接向模型输入海量真实驾驶数据,使其自主学习并输出最终的车辆控制指令。陈龙将这一阶段的核心总结为“数据驱动”。客观而言,2024年国内众多车企与供应商纷纷转向端到端架构,确实推动了辅助驾驶整体性能的显著提升。
然而,进入2025年,纯粹依赖数据驱动的模式逐渐显现出其局限性。简而言之,模型通过“记忆”大量数据提升了常规场景的应对能力,但现实道路环境瞬息万变,总会不断出现更复杂、更罕见的“长尾场景”。此时,系统不仅需要数据积累,更需要对人类驾驶行为、交通规则与社会惯例的深层认知与理解。只有这样,才能在遇到未知状况时,像经验丰富的司机一样灵活应对、合理决策,而非陷入僵化或失效。陈龙将这一新阶段的核心,精准定义为“认知驱动”。

