11月21日,小米正式发布了具身大模型MiMo-Embodied,并宣布全面开源。
小米表示,随着具身智能在家居场景逐步落地、自动驾驶技术迈向规模化应用,行业内一个关键问题日益凸显:机器人与车辆如何更好地实现认知与能力互通?家庭场景智能作业与户外驾驶智能能否相互赋能、彼此促进?
为此,小米具身大模型MiMo-Embodied应运而生。这是业界首个成功打通自动驾驶与具身智能的跨领域具身基座模型,它实现了两大领域任务的统一建模,标志着通用具身智能研究从"垂直领域专用"向"跨域能力协同"迈出关键一步。

该模型具备三大核心技术亮点:
1.跨域能力覆盖:同步支持具身智能三大核心任务(可供性推理、任务规划、空间理解)与自动驾驶三大关键任务(环境感知、状态预测、驾驶规划),形成全场景智能支撑;
2.双向协同赋能:验证了室内交互能力与道路决策能力的知识转移协同效应,为跨场景智能融合提供了全新思路;
3.全链优化可靠:采用"具身/自驾能力学习→CoT推理增强→RL精细强化"多阶段训练策略,有效提升模型在真实环境中的部署可靠性。

在覆盖感知、决策与规划的29项核心基准测试中,MiMo-Embodied确立了开源基座模型的性能新标杆,全面优于现有的开源、闭源及专用模型:
- 具身智能领域:在17个Benchmarks上取得SOTA成绩,重新定义了任务规划、可供性预测及空间理解的能力边界;
- 自动驾驶领域:在12个Benchmarks上表现卓越,实现了环境感知、状态预测与驾驶规划的全链路性能突破。
- 通用视觉语言领域:在夯实通用感知与理解能力的同时,进一步在多项关键基准上实现了显著性能跃升,展现出卓越的泛化性。
