小米自动驾驶OneVL模型开源:统一视觉语言与预测世界模型
5月13日,小米在自动驾驶技术领域取得重要突破,正式发布并开源了其创新的多模态大模型——Xiaomi OneVL。此次发布并非简单的版本迭代,而是标志着小米在技术架构上实现了一次关键的“范式融合”,旨在以更统一的框架解决自动驾驶的核心认知难题。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
那么,Xiaomi OneVL究竟解决了什么问题?它直面自动驾驶系统开发中的一个核心挑战:如何让AI模型同时具备精准的实时环境理解能力与可靠的未来场景推演能力。传统方案通常采用分立架构:视觉语言动作模型负责即时感知与决策,类似于驾驶员的瞬间反应;而世界模型则专注于模拟物理规律,预测未来数秒内的环境变化,如同经验丰富的司机对路况的前瞻判断。两者功能互补,但在架构与数据流转上往往存在隔阂。
Xiaomi OneVL的创新思路在于,尝试将这两条技术路线融合到一个统一的框架内。其核心技术答案是“潜空间推理”。通过这项前沿技术,模型能够将高维、复杂的动态驾驶场景信息进行高效压缩与表征,在一个统一的潜空间内同步完成环境感知、逻辑推理与轨迹规划。这意味着,信息处理流程得以简化,减少了模块间冗余的数据转换与传递,从而在理论上显著提升了系统整体的决策效率与协同性能。

这一统一框架的实际效能如何?多项权威基准测试数据提供了有力佐证。在覆盖感知、推理与规划的综合性评测中,Xiaomi OneVL展现了卓越的性能。

公开数据显示,该模型在ROADWork、Impromptu、Alpamayo-R1等多个国际主流自动驾驶基准测试中,均取得了当前最优的性能评级。尤其在NA VSIM基准上,其PDM-score达到了88.84的高分。这一成绩颇具里程碑意义——它首次证明了基于潜空间推理的隐式方法,在关键指标上能够超越需要逐步显式推理的思维链方法。可以说,Xiaomi OneVL是目前首个在全部测试集上全面领先于传统自回归CoT方法的隐式推理模型。
对于追求实时性的车载部署而言,推理速度与精度同等重要。技术报告指出,通过采用MLP回归头变体进行优化,模型单次推理延迟可降低至0.24秒,对应高达4.16 Hz的推理频率。这一延迟水平仅为传统VLA自回归推理耗时的5.4%。如此大幅度的延迟优化,为在量产车规级芯片上实现高性能、低延时的实时自动驾驶决策扫清了关键障碍。相关的消融实验也进一步验证,对物理世界动态进行有效的压缩表征,是带来性能显著提升的关键因素。
当然,一个可靠的自动驾驶系统不仅需要强大的性能,其决策过程还必须具备可解释性与可信度。Xiaomi OneVL在此方面提供了双重保障机制:它既能通过自然语言生成清晰的决策依据,例如解释“为何在此刻选择变道或减速”;也能输出直观的未来场景视觉预测,展示模型对“接下来几秒交通环境可能如何演变”的推演结果。这种“语言解释”与“视觉推演”相结合的能力,极大地增强了模型行为的透明度,有助于研发人员深度调试并提升用户对AI驾驶的信任感。

总体而言,Xiaomi OneVL的开源,其价值远不止于发布一个高性能模型。它更重要的意义在于,为行业探索下一代自动驾驶感知决策架构提供了一个重要的技术样本与整合路径。将VLA与世界模型统一于潜空间推理框架之下,这一技术方向能否成为未来主流,仍需经过大规模实际场景的验证与迭代。但毫无疑问,小米的此次开源为全球自动驾驶社区带来了一个极具探讨价值与启发性的新思路。
相关攻略
小米开源自动驾驶模型XiaomiOneVL,首次将视觉语言动作模型与世界模型统一于潜空间推理框架。该模型在多项基准测试中取得最优性能,推理延迟降至传统方法的5 4%,支持车端实时部署。同时提供自然语言决策解释与视觉预测,提升可解释性。这一技术整合为行业探索下一代自动驾驶范式提供了新路。
小米开源了自动驾驶模型XiaomiOneVL,该框架首次将视觉语言模型与世界模型统一,显著提升了推理速度与精度。它在多项基准测试中刷新了性能纪录,并为决策过程提供了语言和视觉双维度的可解释性,既能解释驾驶决策,也能预测未来场景。
5月11日,小米生态链品牌Xiaomi Life正式发布了一款新品——自动折叠晴雨伞。这款雨伞提供经典的米色与黑色两种配色,官方售价为149元。其设计的一大亮点在于尺寸经过精准优化,能够完美放入小米汽车全系车型的前排门板储物格,以及小米SU7的后排座椅下方储物空间,为小米车主提供了便捷、贴心的专属收
5月12日,小米技术团队公布了一项重要进展:其开源的Hermes Agent智能体框架在OpenRouter全球平台调用量排行榜中位列第一。最新统计显示,该框架的日Token调用量高达2910亿,周调用量更是突破1 75万亿,展现出强劲的增长势头。 这一卓越表现离不开小米自研的MiMo大模型的核心驱
小米澎湃OS系统优化进展更新:多项用户体验问题获修复 关注小米系统更新的朋友们可能注意到了,本周小米社区发布了一份关于澎湃 HyperOS 3 的最新优化进展。其中提到,用户反馈的 Xiaomi 17 Pro Max 在特定版本下遇到的原照片下载失败、选择照片闪退等问题,目前已经得到优化。这对于正在
热门专题
热门推荐
5月12日,马来西亚吉隆坡成功举办了一场具有前瞻性的行业盛会——中国-马来西亚电动汽车、电池技术与新能源人才创新发展论坛。来自两国政府部门、领军企业、顶尖高校及国际组织的代表共聚一堂,深入交流了在未来产业协同、清洁能源技术创新及高端人才培养等核心领域的合作路径与机遇。 马来西亚第一副总理兼乡村及区域
具身智能要迈过的第一道硬门槛,从来都是量产。 过去几年,全球人形机器人行业反复印证了这一点:舞台演示可以很快,工程验证可以很快,视频传播也可以很快。但当一台机器人要从实验室走向产线,再走向客户现场,问题的复杂度会呈指数级上升。 特斯拉的Optimus就是一个典型的参照系。马斯克多次表达过对Optim
向朋友问路时,如果对方清楚路线,通常会立刻回答“直走然后左转”。但如果对方并不确定,往往会先停顿一下,犹豫地说“呃……好像是……往那边?”。这个开口前的短暂迟疑,往往比最终给出的答案更能说明问题——对方是否真的知道答案。 近期,美国天普大学计算机与信息科学系的一项研究,正是捕捉到了AI回答问题时类似
这项由浙江大学、华南理工大学、南京大学和北京大学联合开展的前沿研究,于2026年4月正式发布,其论文预印本编号为arXiv:2604 24575。 图像分割技术听起来或许有些专业,但它早已深度融入我们的日常生活。无论是智能手机拍摄的背景虚化人像、AI系统在CT影像中精准勾勒病灶轮廓,还是自动驾驶汽车
“大唐”预售热潮尚未平息,“大汉”已蓄势待发,比亚迪王朝系列正以前所未有的攻势,叩响高端市场的大门。 在北京车展引发轰动的比亚迪大唐,预售订单已迅速突破10万台大关,彰显了市场对比亚迪高端产品的强烈期待。而最新信息显示,汉家族即将迎来一位重磅新成员——“大汉”,这款定位D级旗舰的轿车,目标直指20-





