阿里巴巴发布首个具身Qwen-Robot大模型打通物理世界闭环

时间：2026-06-29 12:21

6月16日，阿里巴巴正式发布千问具身智能大模型Qwen-Robot系列——这并非单一模型，而是涵盖三大模型的套件：VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNav，以及世界模型Qwen-RobotWorld。先来看Qwen-RobotNav，它扮演着物理智能体

6月16日，阿里巴巴正式发布千问具身智能大模型Qwen-Robot系列——这并非单一模型，而是涵盖三大模型的套件：VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNav，以及世界模型Qwen-RobotWorld。

阿里巴巴(09988)发布首个具身Qwen-Robot系列大模型打通物理世界行动闭环

先来看Qwen-RobotNav，它扮演着物理智能体的行动入口角色。通过可控观测编码与工具接口，该模型将视觉语言能力无缝衔接至移动控制，统一了指令跟随、目标导航、目标追踪及自动驾驶四大类任务。简而言之，它让智能体明确“要去哪儿”。

再看Qwen-RobotManip，它负责物理智能体的交互能力。通过规范状态-动作空间以及相机坐标系下的末端执行器增量位姿，该模型将视觉语言能力接入操作控制。值得关注的是，它基于完全由开源数据构建的大规模语料库——数据时长超过38100小时——实现了多机型训练，这意味着不同形态的机器人也能共享同一套操作逻辑。

而Qwen-RobotWorld聚焦于物理智能体的“世界认知”。它借助自然语言动作接口，将视觉语言能力接入世界动态预测，使同一个世界模型能够跨越操作、驾驶和导航场景，预测符合物理规律的未来状态。换句话说，它帮助智能体想象“接下来会发生什么”。

三个模型均提供语言优先的接口，可通过通用的Qwen模型进行组合调用。阿里巴巴同步披露了内部机器人智能体框架Qwen-RobotClaw，该框架使Qwen VLM智能体能够将Qwen-Robot Suite系列模型作为物理世界的工具来调用，同时妥善管理长程任务所需的上下文与记忆。这无疑推动物理智能体迈向更通用、更复杂的真实应用场景。

值得一提的是，此前在5月20日，千问已正式发布面向智能体时代的新一代旗舰模型Qwen3.7-Max，即将通过API提供服务。无论部署在Claude Code、OpenClaw、Qwen Code还是其他框架下，Qwen3.7-Max都能稳定发挥出色的跨框架泛化能力。可以说，从模型到框架，阿里巴巴正在构建一个完整的具身智能生态。

来源：https://www.163.com/dy/article/KVI5QDDC05198UNI.html

Robot