小米近日发布重要公告,正式推出并开源全球首个成功实现自动驾驶与具身智能深度融合的跨域基座模型 MiMo-Embodied。该模型的完整训练权重已在国际知名学术平台 arXiv 和开源社区 Hugging Face 同步公开,标志着智能体技术正式迈入跨场景协同发展的新阶段。
从技术架构层面来看,MiMo-Embodied 突破了传统模型受单一场景限制的瓶颈,采用统一的参数架构,能够同时处理六大核心任务:在具身智能领域,它实现了物体可用性判断、复杂任务拆解与三维空间重建;在自动驾驶场景中,模型可以完成动态环境感知、车辆状态预测以及路径规划优化。这种设计使得室内机器人操作与室外车辆决策能够共享底层认知框架,形成跨领域知识迁移的高效协同效应。
在训练策略上,该模型采用三阶段强化机制:首先通过多模态数据构建基础能力,随后引入思维链推理技术增强逻辑连贯性,最终利用深度强化学习优化真实场景下的决策鲁棒性。这种渐进式的训练方法显著提升了模型在复杂动态环境中的部署可靠性,提升幅度达40%以上,同时大幅降低了实际应用中的适配成本。
性能验证数据显示,该模型在29项跨领域基准测试中全面领先。在具身智能方向的17项评测中,15项刷新了现有最优纪录,包括机械臂操作精度、多任务规划效率等关键指标;在自动驾驶方向的12项测试中,模型于雨雾天气感知、突发状况决策等复杂场景表现突出,部分指标甚至超越了行业头部闭源模型。更值得关注的是,模型在通用视觉语言任务中展现出跨模态理解能力,验证了其作为智能基座的可扩展潜力。
应用落地方面,小米已制定了清晰的发展路线图:从2026年第一季度开始,将通过OTA升级将模型部署至自研扫地机器人、工业AGV以及SU7系列智能汽车,实现室内外智能体的认知能力跃迁。同时,公司还将开放模型API接口,为智能家居、智慧物流、智能制造等领域的开发者提供跨场景解决方案,推动形成“感知-决策-执行”全链条的智能生态系统。
