首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
小米汽车世界模型框架实现重建生成一体化 主流基准测试表现全面领先

小米汽车世界模型框架实现重建生成一体化 主流基准测试表现全面领先

热心网友
19
转载
2026-05-26

近年来,“世界模型”概念的兴起,正深刻重塑人工智能的发展路径。它推动AI从处理虚拟的文字与图像,迈向对物理世界运行规律的深度理解与动态推演。智能汽车,作为AI从数字空间走向实体世界的天然平台,自然成为世界模型技术率先落地与验证的关键领域。

近日,小米汽车正式发布了其创新的“Xiaomi Auto World Model”一体化框架。该方案为行业探索出一条将三维重建与视频生成深度融合的全新技术路径,旨在驱动智能驾驶的感知能力,从基础的“环境感知”向更高级的“认知推理与场景演化”阶段跨越。

这并非两种技术的简单叠加。传统方案通常将重建(WorldRec)与生成(WorldGen)作为独立模块开发后再进行串联,但两者存在内在的目标冲突:重建追求几何结构的精确还原,生成追求内容演化的多样可能。简单拼接容易导致优势相互抵消。小米的框架则致力于从根源上化解这一矛盾,通过一体化协同设计,使两者在结构上相互约束、彼此增强。目前,该框架已在Waymo、nuScenes等权威自动驾驶基准测试中取得全面领先(SOTA)成绩,并成功应用于小米汽车的合成数据生成、仿真测试与智能座舱交互三大核心业务线。

世界模型:为智能驾驶赋予“场景预演”能力

设想这样一个行车场景:在高速行驶中,前方路面突然出现滚落的轮胎。要让车辆的辅助驾驶系统妥善应对此类突发状况,传统方法依赖于其在海量真实数据中“学习”过足够多的相似案例。然而,现实道路中的极端“长尾”场景——例如暴雨中突然窜出的行人、山路上的落石、对向车道的逆行车辆——虽然发生概率极低,但一旦出现便可能造成严重后果。我们无法通过采集穷尽所有可能性。

这正是世界模型的核心价值。它能够基于历史和当前的实时观测,预测周围环境在未来时刻的可能演变。对于智能驾驶而言,这意味着车辆不仅具备“感知当下”的能力,更获得了“推演未来”的潜能,从而为决策规划赢得至关重要的提前量。

当前,构建自动驾驶世界模型主要遵循两大技术路线:重建(WorldRec)生成(WorldGen)。二者各具特点:

  • 重建路线擅长从多视角图像中恢复几何结构精确的3D场景,具有保真度高、一致性强的优点,但其局限在于只能还原已观测到的历史内容,缺乏对未知或未来场景的“创造性推演”能力。
  • 生成路线则通过扩散模型等先进技术直接合成未来画面,能够“想象”未观测的视角和未发生的事件,但缺点是由于缺乏显式的三维结构约束,在生成长时序视频时容易出现内容失真和时序漂移问题。

一个直观的思路是:能否将两者结合,优势互补?现有方法多采用简单的级联模式——先重建一个静态场景,再将其作为条件输入生成模型。但这存在一个根本性挑战:重建的目标是追求确定性的几何保真,而生成的目标是拟合概率分布下的内容多样性,两者的优化目标存在本质差异。强行组合,往往导致各自优势难以充分发挥。

小米的解决方案:深度耦合的一体化框架,实现协同增益

Xiaomi Auto World Model 提出的,正是一个将重建与生成深度耦合的创新整合框架。其核心思想是让两个模块在训练与推理过程中形成闭环,相互约束、共同进化:

  • 重建为生成提供“几何锚点”:重建模块(WorldRec)会维护一个随观测实时扩展的4D高斯全局场景表征。将这一精确的三维几何投影到自车视角后,便作为强空间先验输入给生成模型。这意味着,在车辆已观测过的区域,生成过程不再“无拘无束”,而是被坚实的几何结构所锚定——车道线位置、建筑物轮廓、多相机间的一致性均由重建保证,生成模型则专注于补全光照、纹理以及未被直接观测的细节。
  • 生成为重建“拓展时空边界”:在重建无法覆盖的时空区域,例如未来的帧序列、被遮挡的视角或尚未驶过的道路,生成模块(WorldGen)便发挥其“创造性想象力”,将内容高质量地补全,从而使整个世界模型突破“历史轨迹”的物理限制。
  • 协同抑制长时序累积误差:重建提供的确定性几何先验,能够持续校正生成过程的每一步,从根源上抑制因自回归预测带来的误差累积,确保生成长达一分钟的视频序列仍能保持高度的时空稳定性。

简言之,重建提供了稳定的三维空间骨架,约束着生成过程的“形”;而生成为系统补全了丰富的场景细节与演化“神韵”,并将预测能力延伸至观测之外。两者形成高效闭环,最终在三个关键维度上实现了“1+1>2”的协同效果:高稳定性(有效抑制误差漂移)、高一致性(保障跨视角、跨时序的全局一致)和高真实性(合成内容既符合物理规律又贴近真实世界)。

小米汽车世界模型全新框架:重建+生成一体化,主流基准测试全面 SOTA

WorldRec:从“逐像素预测”到“稀疏锚点聚合”的高效三维重建

要深入理解这套协同机制,首先需洞察重建侧的技术革新。当前主流的前馈式三维重建方法,普遍采用“为每个图像像素预测高斯属性”的范式。每张图像独立产生一套高斯点云,再后续融合到三维空间中。这种方法容易导致“鬼影”、分层等伪影,且计算与渲染开销巨大(常涉及数亿高斯点)。

问题的根源或许不在于融合策略,而在于表征本身——缺乏一种机制来约束“同一个三维空间点必须在所有观测视角下收敛为同一个高斯表征”。

基于这一洞察,WorldRec模块的核心思路是将场景表示从“稠密像素关联”升级为稀疏的三维查询锚点,从而实现了重建10秒驾驶视频仅需10秒的高效性能:

  • 稀疏三维锚点表征:采用一组稀疏的、具有唯一三维空间位置的查询点,替代数以亿计的稠密高斯点,从源头避免了多视角间的特征歧义与冲突。
  • 多视角多时序特征聚合:每个锚点会主动“检索”所有相机在不同时刻拍摄的图像特征,并聚合这些跨视角、跨时间的观测证据,形成全局一致的场景理解。
  • 可见性感知的加权融合:系统会自动降低被遮挡或存在强反光等低质量视角的贡献权重,提升清晰可靠视角的权重,让模型聚焦于最可信的观测数据,提升重建鲁棒性。

WorldRec的10s快速重建效果展示

WorldGen:从“迭代修图”到“自由创作”的高效生成引擎

有了精确的3D场景作为“空间锚点”,生成侧的任务就变得清晰明确:在重建覆盖不到的“信息空白区域”——未来帧、未观测视角、被遮挡部分——进行高质量、高保真的内容补全与推演。

WorldGen不再是一个需要大量迭代“局部修复”的模型,而是一个能够“全局创作”的高效生成引擎。它仅需4步去噪,约0.19秒即可生成一帧高清图像,并支持最长1分钟的连续视频序列生成。

其卓越性能源于精心设计的两阶段训练策略:

  • 第一阶段:全局时空理解预训练。采用全双向时序注意力机制,让模型能够同时看到序列的所有帧,从而建立起对驾驶场景时空分布的宏观结构化认知。
  • 第二阶段:因果蒸馏与加速微调。切换到因果注意力进行教师强制训练,随后通过先进的ODE蒸馏技术,将模型推理所需的去噪步数从50步大幅压缩至仅4步,实现高达12倍的生成加速。最后,通过分布匹配蒸馏技术有效解决暴露偏差问题,从根本上抑制长序列生成中的内容退化与漂移。

除了效率,WorldGen的核心价值在于其应对真实世界复杂“长尾”极端场景的能力。无论是罕见的动物闯入(如马匹、鹿等突然出现在路面),还是极端恶劣天气条件(如暴雨、暴雪、浓雾),WorldGen都能生成高质量、高保真的虚拟场景数据。这为训练更鲁棒的自动驾驶感知模型提供了极其宝贵且难以通过真实采集获取的数据资源,直接提升了系统在危险和罕见场景下的识别与应对能力。

WorldGen的极端场景生成效果

全面领先的实测性能与三大核心应用场景

技术上的“深度耦合”与协同增益,最终需要硬核的基准测试与业务数据来验证。

在三维重建领域,Xiaomi Auto World Model的WorldRec模块在Waymo公开数据集上全面超越了之前的SOTA方法DGGT。其PSNR(峰值信噪比,衡量重建精度的核心指标,数值越高越好)达到28.48,领先优势约1个点。更重要的是,在nuScenes数据集上的零样本泛化测试中,它对比其他SOTA方法依然保持领先,证明了其强大的跨场景适应能力,而非仅在特定数据集上过拟合。

在视频生成领域,Xiaomi Auto World Model的WorldGen模块在H20 GPU上,单视角生成速度达到0.19秒/帧,三视角为0.46秒/帧。对比同为自回归方法的Epona(1.06秒/帧),速度快了5.6倍。同时,WorldGen支持高达81帧的连续生成(支持10Hz/30Hz帧率,最长1分钟),而大多数公开基线模型仅能生成8-16帧。在权威的nuScenes数据集评测中,WorldGen取得了FVD 64.97和FID 7.04的优异成绩,其FVD指标超越了所有参与对比的双向与自回归模型,在保证速度的同时保持了顶尖的生成质量。

目前,Xiaomi Auto World Model已经深度赋能小米汽车的三大实际业务场景,驱动产品智能化升级:

  • 合成数据生成:已规模化生产并交付超过10万段高质量合成数据片段,直接用于感知模型的训练与增强,显著提升了车辆对各类危险场景和长尾案例的识别与处理能力。
  • 高保真仿真测试:用于构建逼真的闭环仿真测试环境,极大提升了测试效率与场景覆盖的完备性,甚至能够精准复现真实事故案例进行定向算法优化与安全验证。
  • 智能辅助驾驶学堂:利用世界模型的动态推演能力,生成第一人称视角的沉浸式驾驶教学视频。当用户面对复杂路况或新功能时,系统可以通过生成式视频直观、生动地展示正确操作流程与预期结果。该功能目前已上线小米全系车型的“辅助驾驶学堂-实景模拟”模块。

从被动“感知环境”到主动“推演未来”,Xiaomi Auto World Model正在为智能辅助驾驶构建一个可预测、可交互的“数字平行世界”。这不仅是实验室榜单上的技术突破,更是已经转化为实际生产力与用户体验提升的业务引擎。展望未来,小米汽车将继续深化预训练与闭环训练范式的研究,致力于推动端到端自动驾驶系统的认知与决策能力实现新的阶跃。

小米汽车世界模型框架应用示意图

来源:https://mp.weixin.qq.com/s/qI8Bx_VeSKKiSaCH5KijkA
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

小米汽车发布世界模型新框架,多项基准测试实现SOTA性能
科技数码
小米汽车发布世界模型新框架,多项基准测试实现SOTA性能

今日,小米汽车正式推出名为Xiaomi Auto World Model的全新框架,为自动驾驶领域的世界模型技术演进开辟了创新路径。此举标志着行业技术正从初级的“环境感知”阶段,向具备“认知推理与场景演化”能力的高阶形态深度迈进。 简而言之,该框架的核心创新在于,它首次实现了三维场景重建与动态视频生

热心网友
05.26
小米汽车世界模型框架实现重建生成一体化 主流基准测试表现全面领先
AI资讯
小米汽车世界模型框架实现重建生成一体化 主流基准测试表现全面领先

小米汽车发布全新世界模型框架,将三维重建与视频生成深度耦合,解决了几何保真与内容多样性的矛盾。该一体化设计使两者协同增益,在Waymo等基准测试中全面领先。它应用于合成数据生成、仿真测试与智能座舱,能高效预测环境演化,提升辅助驾驶系统对极端场景的应对能力。

热心网友
05.26
三星DAM-VLA机器人动态操控技术实现手臂夹爪解耦新突破
业界动态
三星DAM-VLA机器人动态操控技术实现手臂夹爪解耦新突破

一、背景 当前,视觉-语言-动作模型已成为推动机器人智能发展的核心架构。然而,主流方案如OpenVLA、π0、CogACT普遍存在一个设计局限:它们依赖单一动作模型处理所有任务。这种“通用型”设计在面对真实世界的复杂机器人操控时,其内在矛盾日益凸显。 问题的核心在于机器人任务本身的二元特性。机器人动

热心网友
05.22
百度ERNIE‑Image开源8B参数模型,消费级显卡实现顶级文生图效果
AI资讯
百度ERNIE‑Image开源8B参数模型,消费级显卡实现顶级文生图效果

近期,AI文生图领域迎来重要突破:百度文心大模型正式发布并开源了ERNIE‑Image文生图模型。该模型以约80亿参数的轻量级规模,在多项国际权威评测中达到SOTA(当前最优水平),其参数量显著低于行业主流模型。 更值得关注的是,ERNIE‑Image仅需24GB显存的消费级显卡即可流畅运行。这标志

热心网友
05.18
GLM-5.1 获全球开源模型最佳性能 全新基准权威发布
科技数码
GLM-5.1 获全球开源模型最佳性能 全新基准权威发布

5月12日,全球权威AI评测机构Artificial Analysis正式推出了一项创新的基准测试——Coding Agent Index(编程智能体指数)。这项测试的独特之处在于,它不再孤立地评估大模型的“理论”编码能力,而是聚焦于更贴近实际开发的场景:系统性地衡量“Agent harnesses

热心网友
05.13

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

山灵Majestic马年限定耳机5月31日上市 首发价8998元
科技数码
山灵Majestic马年限定耳机5月31日上市 首发价8998元

山灵Majestic马年限定版耳机5月31日上市,首发价8998元,全球限量168条。耳机面板采用黄花梨木雕刻马年纹样,搭配液态金属腔体。其采用两圈六铁四静电混合单元结构,并配备电子调音开关以提供四种声音风格。产品附带定制收纳盒与独立编号,强调收藏价值。

热心网友
05.26
妖怪金手指神将培养指南与强力角色推荐
游戏资讯
妖怪金手指神将培养指南与强力角色推荐

在《妖怪金手指》中,二郎神杨戬擅长单体爆发,能快速清除关键目标;孙悟空具备范围伤害与机动性,适合群体压制与清场;观音菩萨则提供治疗与增益,保障团队生存与续航。选择取决于个人战术:追求点杀选杨戬,注重控场选孙悟空,需要稳健支援则选观音菩萨。

热心网友
05.26
营销活动策划与执行全流程优化指南
AI教程
营销活动策划与执行全流程优化指南

Campaigny是什么 在当今的数字营销环境中,一个高效且专业的客户沟通平台是企业不可或缺的利器。Campaigny正是为此而生,它是一款由资深团队开发的智能新闻简报工具。其核心使命在于赋能各类企业——从初创公司到大型机构——都能轻松设计、发布并管理具有专业水准的电子邮件营销内容,从而更紧密、更有

热心网友
05.26
欧易交易所官网唯一入口 如何辨别真假网站防诈骗
web3.0
欧易交易所官网唯一入口 如何辨别真假网站防诈骗

欧易(OKX):全球领先的数字资产服务平台 在数字资产领域,选择一个可靠、功能全面的交易平台是第一步,也是至关重要的一步。欧易(OKX)作为全球领先的服务平台,凭借其强大的技术架构、覆盖现货与衍生品的丰富产品线,以及业界公认的安全保障体系,已经赢得了全球数千万用户的长期信赖。当然,面对网络上可能存在

热心网友
05.26
除湿机哪个牌子好十大品牌排名及用户真实推荐
科技数码
除湿机哪个牌子好十大品牌排名及用户真实推荐

回南天和梅雨季的潮湿问题,常常困扰着南方家庭。为了节省预算,不少消费者曾选购低价除湿机,结果却令人失望:机器运转一整天,室内湿度居高不下,电费开支却大幅增加;设备运行时机身过热,角落甚至滋生霉菌,产生难闻的异味。 市场上这类性能不达标的产品并不少见,普遍存在除湿效率低、能耗虚标等问题,劣质材料还可能

热心网友
05.26