12月23日,清华大学智能产业研究院的科研团队在自动驾驶与具身智能交叉领域取得新进展。相关研究成果已入选国际人工智能学术会议NeurIPS 2025。该研究提出一种名为“具身认知增强的端到端自动驾驶”的方法,首次探索将人类驾驶员脑电信号中的认知特征引入自动驾驶模型训练过程,在不增加车载硬件成本的前提下,提升系统在复杂交通环境下的规划能力与安全表现。
当前,基于视觉输入的端到端自动驾驶技术正成为行业发展的重要方向。然而,多数现有模型依赖对道路、车辆等视觉元素进行标签化监督学习,缺乏类似人类驾驶员的具身推理能力,在应对突发状况或高复杂度场景时存在明显不足。如何赋予自动驾驶系统更接近人类的认知判断机制,仍是技术突破的关键难点。
针对这一问题,研究团队构建了“驾驶-思考”训练框架。该框架通过采集包含道路视频与同步记录的驾驶员脑电信号的多模态数据,利用通用脑电大模型从中提取人类在驾驶过程中产生的潜在认知表征。随后,采用对比学习策略,使自动驾驶视觉网络在训练中学习模拟大脑对交通情境的响应模式,从而实现对人类驾驶认知过程的间接模仿。
该方法采用两阶段训练设计。第一阶段借助脑电数据完成跨模态认知建模,使模型吸收人类驾驶时的隐性决策经验;进入第二阶段及实际应用时,系统仅需常规摄像头提供的视频输入即可运行,无需额外部署脑电采集装置。这种架构实现了人类认知能力向纯视觉自动驾驶系统的有效迁移。
研究团队在nuScenes公开数据集和Bench2Drive闭环仿真平台上进行了实验验证。结果表明,在融入人类认知特征后,主流端到端自动驾驶模型的轨迹规划误差有所减少,碰撞率相对降低约18%至26%。在前车突然变道等高风险情形下,优化后的模型展现出更强的预判能力,驾驶行为更趋近于人类的防御性操作模式。
研究人员认为,这是首次将人类驾驶认知信息直接应用于增强端到端自动驾驶规划任务的研究尝试。该工作不仅为提升自动驾驶系统的安全性提供了新的技术路径,也为脑科学启发的人工智能发展以及具身智能理论与实践的融合提供了有益探索。
