小米开源机器人VLA模型技术解析与应用指南

首页

AI资讯

热心网友

转载

2026-05-23

Xiaomi-Robotics-0是什么

如果需要一个能够“感知环境、理解语言、并执行物理操作”的智能核心，那么小米最新开源的Xiaomi-Robotics-0，无疑是这一领域的一次重大突破。作为拥有47亿参数的首代机器人VLA（视觉-语言-动作）大模型，其设计理念极具巧思：它采用一种混合架构，清晰地将“认知决策”与“运动控制”功能进行分离。

模型的“大脑”部分，由强大的Qwen3-VL多模态模型担当，专门负责解析摄像头捕捉的视觉画面与人类发出的自然语言指令。而“小脑”功能则交由Diffusion Transformer实现，其任务更为具体，即生成高频、精细的机器人关节动作指令序列。

当然，优秀的设计必须经得起实际应用的考验。在机器人控制领域，模型推理延迟导致的动作卡顿与不连贯是核心挑战之一。Xiaomi-Robotics-0针对此问题提出了两大关键技术：异步执行机制与Λ-shape注意力掩码。简而言之，这套方案让机器人在执行当前动作指令的同时，后台已并行计算下一个动作，并通过独特的注意力设计，确保动作切换平滑自然，有效应对环境动态变化，避免机器人“反应迟钝”。

这套技术组合的实际效果如何？数据提供了有力证明。在LIBERO、CALVIN等权威机器人仿真基准测试中，它取得了领先的成绩。更令人印象深刻的是，在实体双臂机器人平台上，它已能流畅完成拆卸复杂积木结构、折叠毛巾等需要双手精密协同与长时序规划的任务。这标志着，利用消费级显卡实现实时、流畅的机器人智能控制，已从概念走向现实。

Xiaomi-Robotics-0的主要功能

该模型的能力并非孤立，而是构建了一个从环境感知、智能决策到精准执行的完整闭环。具体而言，它主要具备以下核心功能：

自然语言指令理解：无需依赖固定格式的指令。用户可以使用更模糊、更接近日常对话的自然语言下达命令，例如“请把桌上那个红色的方块递给我”。模型能够结合视觉上下文，自主解析“那个”的指代对象、“红色方块”的定位以及“递给我”的动作意图。
高精度动作生成与控制：理解之后需高效执行。模型能够输出高频且平滑的关节角度或扭矩序列，直接驱动机器人完成抓取、放置、旋转等多种精确的物理操作，将智能“决策”转化为连贯的实体“动作”。
实时异步执行控制：这是保障操作流畅性的关键技术。模型支持推理计算与动作执行并行化，从根本上消除了因计算等待导致的动作停顿，使机器人运动如行云流水般顺畅。
复杂双臂协同作业：面对需要多步骤配合的复杂任务，单臂操作能力有限。模型具备控制双机械臂进行协调作业的能力，可共同完成如积木拆解、衣物折叠等需要时序规划与多肢体同步的长周期任务。
动态环境自适应调整：现实操作环境充满不确定性。当发生抓取失败、物体滑落或场景突发变化时，模型不会僵化停滞，而是能够实时评估状态，灵活切换至备用动作策略以应对意外。
通用多模态能力保持：一个常见顾虑是，专注于机器人控制训练可能导致模型丧失其他通用能力。Xiaomi-Robotics-0在训练过程中特别注重这一点，它依然保持了良好的视觉问答、图像描述等基础多模态理解能力，有效避免了“灾难性遗忘”问题。

Xiaomi-Robotics-0的技术原理

实现上述强大功能，依托于一套坚实且富有创新的技术体系。我们可以从以下几个核心层面来深入理解其工作原理：

MoT混合专家架构：这是模型的整体框架。它并未采用单一巨型模型处理所有问题，而是借鉴了“混合专家”的分工协作思想。Qwen3-VL-4B多模态模型作为“认知专家”或“大脑”，专门处理高阶的视觉-语言信息融合与任务意图理解；Diffusion Transformer则作为“控制专家”或“小脑”，专注于从噪声中预测并生成精细、连续的动作轨迹。两者总计47亿参数，在通用理解与专用控制之间取得了高效平衡。
两阶段协同训练策略：训练过程也体现了这种分工哲学。第一阶段，通过一种称为“动作提议”的机制，引导视觉语言模型学习理解动作的潜在分布，将其特征空间与视觉语言语义空间进行对齐，同时混合多种类型数据以保护模型原有的通用能力。第二阶段，则冻结已训练好的视觉语言模型，集中资源训练Diffusion Transformer，采用“流匹配”等先进技术，教会它如何从随机噪声中逐步恢复出精准、平滑的机器人动作序列。
异步执行与平滑衔接机制：这是解决实时控制延迟问题的核心工程创新。模型设计使得机器人在执行当前动作块的同时，后台推理引擎已在并行计算下一个动作块。关键技术在于，它将前一时刻已生成并确认的动作序列作为条件输入（称为Clean Action Prefix），从而确保即使在并行计算模式下，新生成的动作在时间维度上也能与历史动作无缝衔接、连续平滑，从系统层面杜绝了动作断层。
Λ-shape注意力掩码设计：这是算法层的一个精巧创新。它取代了传统DiT中的因果注意力掩码。这种Λ形（倒三角）的掩码结构，允许当前时刻正在处理的噪声token关注刚刚发生的“历史动作”信息，以实现动作的自然过渡；但同时，它严格禁止后续的token访问这些前缀信息。这就强制模型在生成未来动作时，必须更多地依赖当前最新的视觉观测信号，而非简单地延续之前的动作惯性。这一设计显著提升了机器人对环境中突发变化的响应灵敏度与适应性。

Xiaomi-Robotics-0的项目地址

对于广大开发者、研究人员及机器人技术爱好者，小米此次采取了全面开源策略，所有关键资源均已公开，便于社区学习、使用与共建：

项目官方网站：https://xiaomi-robotics-0.github.io/
GitHub开源仓库：https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
HuggingFace模型库：https://huggingface.co/collections/XiaomiRobotics/xiaomi-robotics-0
详细技术论文：https://xiaomi-robotics-0.github.io/assets/paper.pdf

Xiaomi-Robotics-0的应用场景

凭借其强大的多模态理解与实时控制能力，Xiaomi-Robotics-0拥有极其广泛的应用潜力，从工业制造到家庭服务，均可扮演关键角色：

工业精密装配与检测：模型已成功演示拆解由多达20个部件组成的复杂积木结构。这种对精细操作、顺序规划和空间理解的高要求，与消费电子、精密仪器、汽车零部件等领域的自动化装配与质量检测场景高度匹配。
家庭服务与辅助护理：在折叠毛巾任务中，模型不仅能完成基本折叠，还能通过主动甩动暴露被遮盖的边角，并能识别并移开不属于毛巾的杂物。这种环境适应性与任务理解能力，在家庭清洁、养老助残、日常家务辅助等场景下具有巨大应用价值。
智慧物流与仓储分拣：其高频、平滑且可适应的动作生成能力，使其能够高效处理不同形状、尺寸、材质的货品，完成精准抓取、智能分拣、有序码放等操作，大幅提升仓储物流的自动化水平与作业效率。
前沿科研与教育开发：作为一个高性能、全开源的基础模型，它为高等院校、科研机构提供了卓越的研究与教学平台，可用于具身智能算法创新、机器人控制新范式探索、以及人工智能与机器人学的实践教学。
商业交互展示与体验：其低延迟、高流畅度的实时交互特性，使其非常适合部署于科技展厅、品牌体验店、产品发布会等场合，进行动态的人机协作演示，生动展现前沿技术实力，提升品牌科技形象。