清华赵昊最新力作：0.4秒完成4D高斯重建，达成自动驾驶仿真SOTA

时间：2025-12-31 18:06

讯从工厂、矿区的封闭路段到更加开放的世界，自动驾驶技术面临着来自真实交通环境的多重挑战。变道超车的车辆、突然打开的车门、横穿马路的行人……当自动驾驶系统学着给这些动态对象进行4D建模、重建和再仿真

讯从工厂、矿区的封闭路段到更加开放的世界，自动驾驶技术面临着来自真实交通环境的多重挑战。变道超车的车辆、突然打开的车门、横穿马路的行人……当自动驾驶系统学着给这些动态对象进行4D建模、重建和再仿真时，大多数解决方案仍然依赖于每场景优化、已知的相机校准或短帧窗口，这使得它们变得缓慢且不实用。

能否快速、低成本获得动态驾驶场景下的仿真数据，决定了自动驾驶系统在开放世界中的进化速度。在这一背景下，长期深耕神经渲染与仿真技术的赵昊老师团队，提出了首个面向大型动态驾驶场景的无姿态（pose-free) 前馈三维重建框架——DGGT（Driving Gaussian Grounded Transformer）。

赵昊现任清华大学智能产业研究院（AIR）助理教授，智源学者（BAAI Scholar）。他的研究聚焦计算机视觉领域，在三维场景理解、生成式仿真与神经渲染等方向深耕多年，研究成果对于自动驾驶及具身智能仿真具有重要意义。

值得关注的是，赵昊老师将以组委会主席的身份，出席2025年GAIR全球人工智能与机器人大会，并主持世界模型分论坛，分享他在世界模型方面的最新探索。

GAIR大会聚焦人工智能的核心技术、前沿趋势与产业落地，长期吸引来自全球的技术领袖和科研人士。本届大会将于2025年12月12-13日在深圳·博林天瑞喜来登酒店举行，与产业界和学术界的嘉宾共同研讨人工智能的下一步发展。

清华赵昊最新力作：0.4 秒完成4D高斯重建，自驾仿真新SOTA丨GAIR 2025

论文地址：https://arxiv.org/abs/2512.03004

01自动驾驶仿真新 SOTA

DGGT最大的突破，是摆脱了传统方案对逐场景优化、相机标定以及短帧窗口的依赖。通过多头联合预测结构，DGGT只需稀疏、无标定图像，单次前向即可同时输出相机位姿、深度、动态实例与场景表示，重建长序列三维场景。

且该场景表示可直接在Gaussian层面进行编辑，如移除或移动车辆，插入其他场景的新汽车或骑行者等实例。DGGT的高度可编辑性支持扩散精修自动补洞，输出可用于仿真与数据合成。

实验结果表明，DGGT在Waymo上达到了 27.41 PSNR，每场景推断 0.39 秒（3 个视角，20 帧），超过了作为优化基线的EmerNeRF、DeformableGS方案和前馈方法，同时保持了速度竞争力。换言之，DGGT比优化类方案更迅速，比前馈方案更保真。

同样令人惊喜的还有泛化性。DGGT将相机位姿从输入转为模型输出，通过端到端预测内外参并融入场景表示的方法，打破了跨数据集部署的校准壁垒。DGGT模型在 Waymo 上训练，却能在 nuScenes 与 Argoverse2 上实现强劲的零样本泛化，在关键感知指标上相比STORM提升超过50%。如在nuScenes上LPIPS从0.394降至0.152（下降 61.4%），在 Argoverse2上从0.326降至0.155（下降52.5%）。

值得注意的是，研究团队在nuScenes 和 Argoverse2 数据集上分别进行了零样本和从头训练两种设置的实验评估。在这两种情况下，DGGT均表现出了SOTA级性能。

此外，系统通过lifespan head建模场景随时间的外观演变，并配合单步扩散精修，可有效抑制运动插值伪影，提升时空一致性与渲染自然度。在保证仿真质量的前提下，DGGT为自动驾驶仿真推开了一扇迈向高速、可扩展新阶段的大门。

02一次前向，完整 4D 场景

DGGT的核心设计理念，是一次性预测完整的4D场景状态，同时清晰地将静态背景与动态实体分离，并保持时间上的连贯性。

具体来说，研究团队将相机位姿从输入转为模型输出，每帧生成像素对齐的高斯映射，并添加一个寿命参数，随时间调制可见性以捕捉变化的外观，随后使用动态头生成密集动态映射，使用运动头估计三维运动，用于稀疏时间戳间插值，同时插入单步扩散细化，抑制重影/遮蔽伪影并恢复细节。

这产生了单遍、无姿态的算法，能够从未摆拍图像重建动态驱动场景，自然支持高斯层级的实例级编辑。

在系统结构上，DGGT 采用 ViT 编码器融合 DINO 先验，通过交替注意力得到共享特征，再由多个预测头并行输出：

相机头估计每一帧内外参数；

Gaussian 头给出逐像素颜色/位置/旋转/尺度/不透明度参数；

lifespan 头控制时间可见度；

动态头输出运动遮罩；

运动头显式估计动态物体的三维位移；

天空头稳定建模远景背景。

03动态驾驶场景仿真新路径

长期以来，高精度标定设备和固定路线采集方案，一直限制着动态驾驶场景训练数据的成本和采集效率，DGGT则提出了一种规避上述限制的全新方案。

将相机位姿转为模型输出的设计使DGGT具有了在真实、开放世界中的高度灵活性，同时其多头联合预测结构支持任意数量的输入视图和长序列处理，克服了现有前馈方法在时序扩展性上的瓶颈，为处理大规模自动驾驶日志提供了可行路径。

更可贵的是，DGGT能在Waymo、nuScenes等大规模数据集上实现SOTA级重建质量的同时，仍然保持亚秒级的推理速度。这种既快又好的特性，平衡满足了工业界对速度与质量的双重需求，使其具有作为实时的预处理模块，集成到自动驾驶系统的训练、仿真与评估流程中的潜力。

总体来看，0.4秒即可完成支持实例级编辑的4D重建，速度与质量兼顾的动态场景建模，以及对跨数据集泛化瓶颈的突破，无一不意味着低成本生成动态驾驶场景训练数据的新范式，已经距离我们更近一步。

(公众号：)文章

原创文章，未经授权禁止转载。详情见转载须知。

来源：https://www.leiphone.com/category/industrynews/SYAGG5WQ7Kt3C0SE.html

赵昊 GAIR 仿真建模

上一篇西湖大学修宇亮：数字人重建如何转向基础模型微调任务 下一篇阿里开源Qwen-Image：真如摄影、细至发丝的新一代图像生成模型

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略，采用“1+N+X”布局，联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm，体重69kg，移动速度0 8m s，具备40个自由度，续航超2小时。预计明年一季度发布首款车载组件机器人，已在广州车展展示。

业界动态 · 2026-06-29

中国信科刷新光通信世界纪录每秒可下载1.4万部4K电影

3月25日，光通信领域迎来又一个里程碑：中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司，成功实现了2 5Pb s 24芯光纤超大容量实时光传输，再次刷新了世界纪录。这一研究成果不仅入选国际顶级光通信会议OFC（2026）并荣获“高分论文”称号，还受国际权威SCI

业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查，焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿，不意味着立即召回，但可能引发后续监管措施。

业界动态 · 2026-06-29

doc个人图书馆停服创始人称无偿转让失败

运营长达20年，累计服务8000万用户的360doc个人图书馆，最终还是迎来了谢幕时刻。2026年5月1日，这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失，而是始终未能寻得一位能够安全接管的合适人选。创始人蔡智在告别信中坦言，近两个月来，他一直在尝试将360doc无偿转

业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月，艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证，紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后，折射出一个清晰的市场趋势：移动办公、户外出行、宿舍上网等场景的需求正在快速增长，随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿