6月16日,阿里巴巴正式发布千问具身智能大模型Qwen-Robot系列——这并非单一模型,而是涵盖三大模型的套件:VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNav,以及世界模型Qwen-RobotWorld。

先来看Qwen-RobotNav,它扮演着物理智能体的行动入口角色。通过可控观测编码与工具接口,该模型将视觉语言能力无缝衔接至移动控制,统一了指令跟随、目标导航、目标追踪及自动驾驶四大类任务。简而言之,它让智能体明确“要去哪儿”。
再看Qwen-RobotManip,它负责物理智能体的交互能力。通过规范状态-动作空间以及相机坐标系下的末端执行器增量位姿,该模型将视觉语言能力接入操作控制。值得关注的是,它基于完全由开源数据构建的大规模语料库——数据时长超过38100小时——实现了多机型训练,这意味着不同形态的机器人也能共享同一套操作逻辑。
而Qwen-RobotWorld聚焦于物理智能体的“世界认知”。它借助自然语言动作接口,将视觉语言能力接入世界动态预测,使同一个世界模型能够跨越操作、驾驶和导航场景,预测符合物理规律的未来状态。换句话说,它帮助智能体想象“接下来会发生什么”。
三个模型均提供语言优先的接口,可通过通用的Qwen模型进行组合调用。阿里巴巴同步披露了内部机器人智能体框架Qwen-RobotClaw,该框架使Qwen VLM智能体能够将Qwen-Robot Suite系列模型作为物理世界的工具来调用,同时妥善管理长程任务所需的上下文与记忆。这无疑推动物理智能体迈向更通用、更复杂的真实应用场景。
值得一提的是,此前在5月20日,千问已正式发布面向智能体时代的新一代旗舰模型Qwen3.7-Max,即将通过API提供服务。无论部署在Claude Code、OpenClaw、Qwen Code还是其他框架下,Qwen3.7-Max都能稳定发挥出色的跨框架泛化能力。可以说,从模型到框架,阿里巴巴正在构建一个完整的具身智能生态。
