2025年6月16日,阿里巴巴正式推出千问具身智能大模型系列——Qwen-Robot。此次一次性发布了三款核心模型:专注于操作任务的Qwen-RobotManip、精通移动导航的Qwen-RobotNa v,以及具备世界动态预测能力的Qwen-RobotWorld。

简而言之,这是千问大模型家族在具身智能领域的首次全面亮相。这三款模型分别对应机器人的三大核心能力——灵巧的操作手、精准的导航脚以及智能决策大脑,堪称给各类形态机器人装配了统一的“通用底座”。它们既可独立部署执行特定任务,也能协同工作,为机器人的真实场景落地提供了更稳固的技术支撑。
三大模型解析:手、脚、大脑的分工与协作
Qwen-RobotNa v:物理智能体的行动入口与导航核心
Qwen-RobotNa v的核心导航能力,在于将视觉语言理解与移动控制无缝衔接。借助可控观测编码和工具接口,该模型能够统一处理指令跟随、点/目标导航、目标追踪以及自动驾驶等四种不同类型的任务,从而实现了路线规划与指令理解的深度打通。
Qwen-RobotManip:物理智能体的交互基石
在操作层面,Qwen-RobotManip通过规范状态-动作空间以及相机坐标系下的末端执行器增量位姿,将视觉语言能力深度融入操作控制。尤为重要的是,其训练语料库完全基于开源数据构建,总时长超过38,100小时,支撑起大规模多机型训练——这意味着不同形态的机器人手臂都能共用这套通用操作能力。
Qwen-RobotWorld:物理智能体的无限世界
Qwen-RobotWorld更进一步,通过自然语言动作接口,使视觉语言模型具备了世界动态预测能力。同一个世界模型,能够应用于操作、驾驶、导航等多种场景,预测出符合物理规律的未来演变趋势。模拟逻辑与现实世界的界限,在此逐渐消融。
值得关注的是,5月20日阿里巴巴还发布了全新一代千问旗舰模型Qwen3.7-Max。在第三方机构Arena全球大模型盲测总榜中,Qwen3.7-Max超越了Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1,性能与GPT、Claude、Gemini的最强模型接近,位列国产模型第一。
