理想汽车150亿研发投入 12篇顶会论文展示自动驾驶实力

时间：2026-06-09 11:44

理想汽车12篇论文入选CVPR2026，涵盖世界模型、端到端规划、多模态感知等方向。研发投入连续五季度累计近150亿元。技术布局聚焦模型仿真、认知推理、安全预判与规划优化，推动自动驾驶从感知世界向理解与推演未来演进。

计算机视觉顶级会议CVPR 2026刚刚落幕，理想汽车在本届会议上的表现令人瞩目——共有12篇论文被收录，研究方向覆盖世界模型、端到端规划、多模态感知、强化学习、认知模型以及语言与视觉智能等核心技术领域。

需要指出的是，CVPR与ICCV、ECCV并称为计算机视觉三大顶会。一家中国车企能够一次性入选12篇，其含金量远非普通会议论文可比，充分体现了技术积累的深度。

更值得关注的重点并非论文数量本身，而是这些研究共同揭示了一个趋势：理想汽车的智能化战略，正从产品功能层面深度向底层模型、仿真能力、安全验证和推理引擎全面下沉。这背后是持续且高强度的研发投入——截至2026年第一季度，理想汽车已连续5个季度保持约30亿元的研发投入规模，累计接近150亿元。在过去五年中，他们在CVPR、ICCV、ECCV、NeurIPS、SIGGRAPH、IROS、ICRA等顶级会议和期刊上已累计发表近百篇论文。

量变之下，质变已然显现。这12篇论文究竟聚焦哪些核心难题？逐一拆解后，可以清晰提炼出四条关键技术主线。

一、世界模型四项突破：仿真与安全基座升级

在自动驾驶领域，世界模型需要解决的根本问题是：车辆能否在采取行动之前，先理解并推演周围环境的动态变化。

这四篇关于世界模型的论文，分别从深度估计、三维重建、交通规则认知评估、安全风险预判四个维度展开，构建了一条从“还原真实场景”到“理解交通规则”，再到“预判危险后果”的完整技术链路。

道路结构如何变化？其他交通参与者可能如何运动？一条规划轨迹是否存在风险？面对复杂交通规则时如何取舍？对于面向真实道路的自动驾驶系统而言，世界模型不仅是仿真模拟的基石，更是提升安全性、处理长尾场景的关键支撑。

InfiniDepth：将深度估计从“像素级”推向“连续场”

在几何理解层面，InfiniDepth聚焦于最基础也最关键的问题——深度感知。传统方法通常是在固定图像网格上估算深度，结果容易受分辨率限制，细小结构及几何边界常常模糊不清。InfiniDepth创新地将深度表示为连续的神经隐式场，模型能够查询任意二维坐标下的深度值，从而支持更高分辨率、更精细的估计。对自动驾驶场景而言，这意味着可以更准确地还原道路、车辆、障碍物的三维结构，为后续的仿真和环境建模提供更可靠的几何基础。

Unposed-to-3D：从真实驾驶图像中直接“生长”出三维车辆资产

在仿真资产构建方面，Unposed-to-3D解决了一个现实痛点：高质量的三维车辆资产从何而来？现有方法依赖合成数据进行训练，与真实道路图像之间存在域差距，生成的车辆姿态不统一、尺度不准确，难以直接应用于驾驶仿真环境。Unposed-to-3D采用两阶段框架，直接从真实驾驶图像学习三维车辆重建，并引入尺度感知与外观协调模块，使生成车辆在尺寸、姿态和光照上更贴近真实场景。这意味着未来构建大规模、多样化的仿真交通环境时，可以大幅减少人工建模依赖，更高效地从真实世界中获取可用资产。

DriveCombo：为多模态大模型设计一套“交通规则考试题”

世界模型不仅要“看得准”“建得真”，还需理解交通世界中的规则。DriveCombo正是面向复杂交通规则推理而提出的评测基准。现有评测通常局限于单一规则场景，如识别交通标志或简单路权判断，但真实驾驶中更常见的是多条规则同时出现甚至相互冲突。DriveCombo构建了文本与视觉结合的组合式推理基准，并提出了五级认知阶梯，从单规则理解逐步提升至多规则整合与冲突消解。通过对14个主流多模态大模型的评估发现，任务越复杂，模型性能下降越明显，尤其是在规则冲突场景中。简言之，这并非一个驾驶模型，而是一套“考题”——用于评估模型能否理解复杂交通规则，尤其在出现多条规则冲突时如何做出正确判断。

AD-R1：让世界模型学会“预判危险”

安全预判是世界模型走向闭环训练的关键一步。AD-R1聚焦于端到端驾驶强化学习中的一个核心难题：如果世界模型仅在安全专家数据上训练，容易产生“乐观偏差”——面对危险轨迹时仍倾向于预测看似安全的未来，例如忽略碰撞或道路边界风险。AD-R1提出了“公正世界模型”的概念，通过反事实合成生成碰撞、驶离道路等风险场景，使模型学会真实预测危险后果，并将其作为闭环强化学习中的内部评论器，为候选动作提供安全反馈。换句话说，模型不仅要学习“好司机怎么开”，也要理解“错误动作会导致什么后果”。这对于提升系统在长尾风险场景下的可靠性具有直接意义。

这四项研究共同构成了理想汽车在世界模型方向的系统性布局，也为智能驾驶从“看见世界”迈向“理解世界、推演世界并规避风险”提供了更坚实的技术支撑。

二、认知对齐与语言、视觉智能：让模型推理更准更快

世界模型是训练侧的关键，而在推理侧，认知对齐、语言与视觉智能同样不可或缺。要让车辆从“看见道路”进一步走向“理解道路”，模型需要的不仅仅是识别能力，还包括连续认知、语言理解、动作生成以及高效部署能力。

针对上述问题，理想汽车拿出了5篇研究：CogDriver提升驾驶决策的时序稳定性，LinkVLA打通语言理解与动作生成，FastMMoE降低多模态大模型推理成本，CoV-Align提升视觉与语言的细粒度对齐效率，Switch-KD则让大模型能力更容易迁移到轻量模型。这些研究共同构成了理想在认知模型、语言智能和视觉智能方向的技术积累。

CogDriver：为驾驶模型加入“记忆”和“惯性”

CogDriver关注当前视觉语言模型在时序理解上的短板。许多模型处理驾驶场景时，更像是逐帧“看图说话”，缺乏对历史状态和持续意图的记忆，容易导致决策抖动。CogDriver引入“认知惯性”机制，通过大规模视觉-语言-动作数据集提供时序监督，并在智能体中融入稀疏时序记忆模块，使模型形成更稳定的内部状态。实验结果表明，CogDriver在Bench2Drive闭环驾驶得分上提升22%，在nuScenes上将平均轨迹误差降低21%。

LinkVLA：将语言和动作统一到同一套“密码本”中

CogDriver解决的是“连续理解”问题，而LinkVLA则更进一步，面向“理解之后如何行动”。视觉语言动作模型被认为是端到端驾驶的重要方向，但现有方法常存在语言指令与动作输出对齐不佳、逐步生成动作序列导致推理效率低的问题。LinkVLA将语言和动作统一到共享离散码本中，从结构上强化跨模态一致性；同时引入动作理解辅助任务，使模型既能从语言到动作，也能从轨迹反推语义描述。它还采用由粗到细的两步生成方式替代传统逐步解码，在提升指令遵循和驾驶表现的同时，节省了86%的推理时间。系统延迟更低，也更加智能。

FastMMoE：让多模态大模型“减负”跑得更快

模型变得更聪明后，另一个现实问题是能否跑得更快、更轻。FastMMoE面向基于MoE架构的多模态大模型，提出免训练加速框架，从路由行为入手：一方面减少视觉Token不必要的专家激活，另一方面根据路由概率分布识别并裁剪冗余视觉Token。相比单纯从注意力权重判断哪些Token可以删除，FastMMoE更贴合MoE模型自身的计算机制。实验显示，在DeepSeek-VL2、InternVL3.5等模型上，FastMMoE最高可减少55%的FLOPs，同时保留约95.5%的原始性能。这对于车端、座舱等对延迟和算力敏感的场景非常有价值。

CoV-Align：让模型真正“看懂”图像和文字的对齐

在多模态理解中，语言与视觉之间能否精准对齐，决定了模型是否真的“看懂了”。CoV-Align聚焦于图像区域与文字描述之间的细粒度对齐。传统方法往往依赖文本引导去聚合图像区域，容易产生冗余的patch-word匹配，计算成本也较高。CoV-Align提出“内聚视觉语义优先”的思路：先在不依赖文本的情况下，将语义一致的视觉区域聚合起来，再进行跨模态对齐。这样既减少了噪声，也提升了效率。在Flickr30K和MS-COCO等图文评测基准上，CoV-Align达到领先表现，并带来3至5倍的计算加速。

Switch-KD：将大模型能力“浓缩”进小模型

视觉语言模型能力强大，但参数规模大、部署成本高。传统知识蒸馏常将视觉和语言分开监督，容易造成跨模态知识传递不充分。Switch-KD提出视觉切换蒸馏框架，将视觉-语言知识统一到共享的文本概率空间中，让小模型更有效地学习大模型的多模态理解能力。论文显示，0.5B的TinyLLaVA在3B教师模型指导下，在10个多模态基准上平均提升3.6分，且无需改变模型结构。对于需要在有限算力下运行的车端边缘计算和智能座舱场景，这种轻量化能力同样至关重要。

三、端到端规划升级：从“看懂场景”到“形成目标”

相比将感知、预测、规划拆分为多个独立模块，端到端方法希望模型能直接从传感器输入中理解道路环境，并生成可执行的驾驶轨迹。然而，现实驾驶场景并非简单的图像识别问题：车辆需要理解三维空间关系、交通参与者行为、道路结构变化，以及自身下一步应达到的短期目标。

理想汽车提出的SGDrive，正是围绕这一问题展开。

SGDrive将驾驶理解拆分为更接近人类驾驶认知的层级结构：先理解整体场景，再关注关键交通参与者及其行为，最后形成短期目标并执行动作——即Scene-Agent-Goal（场景—交通参与者—目标）的层级认知框架。它并非简单地让模型“看图后直接输出轨迹”，而是补上了驾驶任务所需的中间认知过程。

人类驾驶员在复杂路口或拥堵道路中，不会仅凭单帧画面做判断，而是先把握道路整体格局，再判断哪些车辆、行人或障碍物会影响自身行驶，最后形成一个可执行的短期目标。SGDrive将这种过程结构化地注入模型，使通用视觉语言模型能够围绕驾驶知识进行表示学习，更好地服务于轨迹规划。在NA VSIM基准上，SGDrive取得了纯视觉方法中的领先表现。

四、多模态感知与强化学习：提升环境预判与规划优化

端到端规划中，模型需要从复杂道路环境中形成合理驾驶目标。而要让目标真正可靠，前提是系统既能提前预判环境变化，也能在试错和反馈中优化规划策略。

SparseWorld-TC和PlannerRFT分别从多模态感知和强化学习两个方向切入。前者关注车辆如何更准确地理解未来场景，后者关注规划器如何在闭环训练中生成更优轨迹。

SparseWorld-TC：提前“看见”未来几秒的三维场景

SparseWorld-TC解决的是未来三维场景预测问题。对车辆而言，仅仅识别当前时刻的道路、车辆和障碍物还不够，更关键的是判断接下来几秒钟内环境会如何演化。传统方法依赖鸟瞰图投影或离散化占据token，虽然便于建模，但也带来了信息压缩和表达能力限制。SparseWorld-TC采用稀疏占据表示，直接从原始图像特征出发，端到端预测未来多帧三维场景的占据情况，绕开了BEV投影和离散token表示的双重瓶颈。真实道路上的风险往往不是静态出现的，而是在车辆、行人、道路结构和自身轨迹共同变化中逐步形成的。SparseWorld-TC通过轨迹条件化的方式，让车辆提前预测未来几秒周围三维空间的变化，为后续规划提供更可靠的环境预判。

PlannerRFT：在仿真反馈中“学会”生成更优轨迹

如果说SparseWorld-TC让系统更好地“预判世界”，PlannerRFT则关注如何让规划器在反馈中变得更强。扩散模型被用于生成更接近人类驾驶习惯的轨迹，但在强化微调过程中，如何生成多样化、场景自适应的轨迹，仍然是一个难点。PlannerRFT提出了面向扩散规划器的样本高效强化微调框架，通过双分支优化同时调整轨迹分布，并自适应引导去噪过程，在不改变原始推理流程的前提下，使规划器更有效地探索高价值轨迹。更重要的是，PlannerRFT同步开发了nuMax仿真器，用于支撑大规模并行学习。论文显示，nuMax的轨迹推演速度相比原生nuPlan提升10倍，为强化学习训练提供了更高效的闭环环境。

结语：全方位布局自动驾驶

从这12篇论文中可以清晰地看到，理想汽车的技术布局并非停留在单点能力突破，而是在围绕智能驾驶构建一整套更完整的能力链条：世界模型负责还原、推演与评估真实道路环境；认知对齐与语言、视觉智能提升理解和推理效率；端到端规划让模型形成驾驶目标；多模态感知与强化学习进一步强化环境预判和闭环优化能力。

这些研究共同指向同一个方向：让车辆不仅能看见世界，更能理解世界、推演未来，并在复杂场景中做出更可靠的行动选择。

来源：https://www.163.com/dy/article/KUU70RM60527EIDC.html

自动驾驶

上一篇我国科研人员研制新型高频晶体管再创全球纪录 下一篇AI电力需求激增奥特曼核聚变公司估值涨至155亿美元

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。