6月17日,Qwen团队正式推出了一套机器人套件,包含三款基础模型:Qwen-RobotNa v、Qwen-RobotManip和Qwen-RobotWorld。这套模型的核心思路是将大语言模型的语义理解能力精准对接到各类型物理动作上——即让“语言”直接指挥“机器”执行实际任务。

首先是Qwen-RobotNa v。该模型通过可控观测编码和工具接口,将视觉语言能力整合到移动控制中。这意味着它统一了四类典型移动任务:指令跟随、点/目标导航、目标追踪以及自动驾驶。无论是“走到桌子旁边”这样的简单指令,还是复杂环境下的自主导航,一个模型框架即可完成——这种集成能力在以往并不多见。
接下来是Qwen-RobotManip,它专注于操作控制。其实现方式是通过规范化状态-动作空间,并引入相机坐标系下的末端执行器增量位姿,使视觉语言能力能够更精准地驱动机械臂。更关键的是,该模型的训练语料库完全基于开源数据构建,总时长超过38,100小时,从而支持大规模多机型训练——这意味着同一个模型可适配多种型号的机械臂,无需为每种机型单独训练。
Qwen-RobotWorld则采用不同路径:通过自然语言动作接口,将视觉语言能力接入世界动态预测。简单来说,它使同一个世界模型能够跨操作、驾驶和导航场景,预测出符合物理规律的未来状态。这意味着机器人不仅能感知当前环境,还能“想象”即将发生的变化,这对复杂环境中的决策至关重要。
这三款模型有一个共同特征:均采用语言优先的接口。它们可以与通用大模型组合,构建完整的物理智能体系统。Qwen已展示了从语言理解到复杂物理任务执行的闭环能力,包括实时任务分解和自主纠错——也就是说,用户只需告诉它“我想做这个”,它便能自动分解步骤、执行操作、发现问题并主动调整。这正是真正意义上的“可指挥机器人”。
