小米开源自动驾驶模型OneVL技术详解与应用前景
近日,小米正式发布并全面开源其新一代自动驾驶大模型Xiaomi OneVL。这款创新产品被定义为“一步式潜空间语言视觉推理框架”,其核心突破在于,首次将自动驾驶领域三条主流技术路线——VLA(视觉-语言-动作模型)、世界模型和潜空间推理——高效整合至统一架构。官方公布的关键性能数据表现卓越:模型推理延迟最低仅需0.24秒,这仅为传统VLA自回归推理耗时的5.4%;在精度方面,它超越了需要逐步输出推理过程的“显式思维链”方法,而推理速度则与直接输出结果的“仅答案”预测模式相当。这意味着,在自动驾驶这一对实时性要求极高的应用场景中,大模型首次实现了速度与精度的双重突破,真正做到了高效与精准的平衡。

OneVL的发布标志着小米在自动驾驶技术上的持续深化。回顾今年3月,小米发布了XLA认知大模型架构,旨在推动智能驾驶从传统的“感知与模仿”向更高阶的“理解与推理”阶段演进。短短两个月后,OneVL便在此基础上实现了关键跃升,完成了一次重要的技术融合与创新。
在自动驾驶研发中,VLA、世界模型和潜空间推理这三条技术路线长期并存,各有优劣,也让行业面临路线选择难题。VLA擅长端到端的直接决策,但推理速度较慢;世界模型能预测未来场景演变,但计算复杂度极高;潜空间推理速度极快,但决策精度时常面临挑战。OneVL的创新思路在于不做单一选择,而是巧妙地以高效的潜空间推理架构作为“基础容器”,深度融合了VLA强大的决策能力与世界模型对环境的深度理解。这种设计使得精度与速度之间的矛盾,得以在统一框架内得到协同优化与解决。
对于自动驾驶系统而言,延迟是关乎安全的核心指标。传统VLA模型采用的自回归推理方式,需要模型逐步“思考”并输出每一步结果,延迟往往高达数秒,这无法满足车辆高速行驶的实时决策需求。OneVL将这一关键延迟压缩至0.24秒量级,不仅达到了车端实时部署的可行性标准,更为高阶自动驾驶功能的落地打开了新的技术空间。
更为重要的是,这种速度的飞跃并未以牺牲准确性为代价。小米官方技术报告指出,OneVL的决策精度超越了传统的“显式思维链”方法。后者虽然过程清晰、准确性高,但推理路径冗长;而OneVL在“潜空间”——一个高度压缩的内部表征维度——中并行完成所有复杂推理,无需显式输出中间步骤,最终直接给出更优的决策结果,其速度却堪比简单的直接预测模型。这好比一位技艺超群的棋手,无需逐步解释计算过程,却能更快更准地落子制胜。
与许多车企将智能驾驶核心算法视为商业机密、严格闭源保护的普遍做法不同,小米为OneVL选择了全面开源策略。这一决策背后蕴含着清晰的商业逻辑与技术生态考量。
开源背后的战略考量
首先,开源是快速构建活跃开发者生态的有效途径。吸引全球研究人员与工程师基于OneVL进行二次开发、应用与优化,能够加速技术迭代与场景验证,推动模型快速成熟。其次,自动驾驶系统的完善极度依赖海量、多样化的真实道路数据,尤其是应对各种罕见的“长尾场景”。开源社区的广泛参与,能帮助小米以更低的成本、更高的效率收集和处理这些边缘案例数据,持续反哺模型进化,提升泛化能力。最后,在行业普遍将智能驾驶算法视为核心竞争壁垒的当下,小米通过开源策略,旨在换取生态话语权与技术标准影响力,这套打法与其在智能手机和IoT领域成功构建生态体系的经验一脉相承。
目前,OneVL的完整模型权重、训练代码及推理代码已在主流技术社区平台公开。结合此前开源的XLA大模型架构,小米正在逐步搭建一个从底层认知大模型到上层端到端自动驾驶应用的完整开源技术栈,为行业开发者提供一体化工具。
纵观小米自动驾驶的整体布局,其技术推进节奏清晰而明确。从2021年宣布进军智能汽车领域,到2023年底发布智能驾驶全栈技术架构,再到2024年城市领航辅助驾驶(NOA)功能逐步落地,外界曾一度将其视为“后来者”。然而,从XLA到OneVL的快速技术迭代表明,小米正试图通过大模型与原生架构创新这条路径,重新参与并定义智能驾驶技术竞赛的规则。
当行业竞争焦点仍较多集中于城市NOA开通数量与范围时,小米已将技术战火引向了更底层的自动驾驶大模型推理效率与架构创新。OneVL的发布与开源,不仅是一款重要的技术产品,更是一份明确的行业宣言:自动驾驶下一阶段的决胜关键,或许不在于单纯积累更多的路测里程,而在于构建更高效、更精准、更开放的底层模型架构与开发生态。
相关攻略
小米开源自动驾驶框架XiaomiOneVL,整合VLA、世界模型与潜空间推理三大技术路径。其核心突破在于推理延迟仅0 24秒,为传统方法的5 4%,且精度超越显式思维链,实现速度与准确性的统一。该模型在潜空间高效完成复杂推理,无需中间步骤。小米通过全面开源,旨在构建开发者生态、积累长尾数据并提升行业影响力。
小米开源一步式潜空间语言视觉推理框架XiaomiOneVL,该框架整合视觉语言动作、世界模型与潜空间推理,提升复杂场景下的推理效率与连贯性,在多项基准测试中表现优异。小米董事长雷军表示开源旨在推动自动驾驶领域技术协同,相关代码与文档已公开,此举被视为小米AI基础研究的重要进展。
自动驾驶技术领域迎来重要突破,一项创新的开源框架正引发行业高度关注。5月13日,小米技术团队正式发布并开源了Xiaomi OneVL一步式潜空间语言视觉推理框架,为自动驾驶大模型的发展提供了全新工具。 小米集团创始人、董事长兼CEO雷军随后通过社交媒体详细解读了这一成果。他强调,Xiaomi One
小米发布三张由Xiaomi17Max拍摄的样片,均由同一张2亿像素原片裁切而成,展示了主摄的强大解析力。新机搭载1 1 4英寸大底传感器,配合算法实现超清画质。此外,该机采用6 9英寸窄边直屏与四曲面中框设计,提供晴空蓝、白色和像素黑三种配色。
近日,一组关于小米首款增程SUV的实车路测谍照在汽车圈引发热议。多位汽车博主相继曝光了这款新车的测试图片,其整体造型与关键设计细节已较为清晰地呈现在公众面前。 最引人注目的是车头部位清晰可见的小米汽车Logo轮廓。这一发现直接关联到此前关于“寻天”(Skynomad)品牌归属的猜测。从最新谍照信息分
热门专题
热门推荐
根据Gartner最新市场报告,2025年全球PC出货量突破2 7亿台,同比增长9 1%。在人工智能技术浪潮与AI PC算力升级需求的双重驱动下,整个PC行业正迈入一个全新的增长周期。作为细分市场的重要力量,游戏笔记本电脑也迎来了关乎性能、体验与场景定义的关键换代节点。 回顾行业发展,英特尔于202
TUSD是一种与美元1:1锚定的合规稳定币,由TrustToken团队推出。它通过第三方机构定期审计和银行账户托管确保透明度,旨在提供可靠的数字美元解决方案。其用途涵盖交易、支付、DeFi及跨境结算,但用户仍需关注其中心化托管、监管变化及智能合约安全等潜在风险。
OpenClaw 生态中那个关键的“眼睛”和“手”——Peekaboo v3,正式回归了。这不仅是一次版本更新,更像是一次关键的“补完”。它让 AI 不再只是停留在聊天框里给出建议,而是真正获得了观察屏幕、点击按钮、操作真实桌面的能力。 过去几个月,OpenClaw 的热度经历了一个典型的周期:从概
微信小游戏《找个球》,玩的就是眼力。每张看似相同的图片里,都藏着好几处“破绽”——有的明显,有的则隐蔽得让人抓狂。从简单的卧室场景,到复杂的宴会、雨夜,关卡越往后,画面细节越多,挑战也越大。想通关?秘诀就一个:沉住气,从左到右,一寸一寸地对比。 为了方便大家攻克难关,这里整理了一份全关卡通关攻略图合
《找个球》第10关攻略详解:如何快速找出15处不同?本关场景围绕经典角色“嬛嬛”与“大胖橘”展开,挑战在于发现两幅图片间的细微差别。这些差异点主要隐藏在人物的发饰造型、衣领褶皱、服饰花纹等细节处。同时,背景中的花草形态、秋千绳索乃至庭院摆设也可能存在巧妙改动。想要高效通关,建议玩家采用分区对比法,先





