机器人在真实世界中的实用能力,早已不局限于简单的物体识别。近日,越疆科技正式发布了其重磅产品——空弈 DobotWAM 具身大模型。在具身智能领域公认的高难度基准测试 LIBERO 上,该模型一次性完成了四个标准任务套件:考察空间关系理解的 LIBERO-Spatial、物体泛化能力的 LIBERO-Object、目标指令理解的 LIBERO-Goal,以及长时序任务执行的 LIBERO-10。测试结果令人瞩目:平均成功率达到 99.25%,显著超越了 π0.5、π0、GR00T-N1.5、π0+FAST 等一系列公开模型,也领先于行业内已公布的其他模型成绩。
具体而言,在 LIBERO-Object 子任务中,空弈模型取得了 100/100 的满分成绩,其余三个套件——Spatial、Goal 和 LIBERO-10,也分别达到了 99/100。这样的表现在当前阶段极具说服力。
越疆科技对此的看法非常明确:机器人实现真正实用的关键障碍,不再是识别单个物体(如杯子或椅子),而是在动态、多变且充满不确定性的开放环境中,准确理解物体间的空间关系,将复杂任务拆解为可执行的小步骤,生成符合机器人运动学结构的合理动作,并在连续多步操作中保持稳定,不偏离目标、不丢失任务。
回顾近两年的技术发展,视觉-语言-动作模型已成为机器人动作生成的主流范式。这类方法在数据覆盖充分、任务边界清晰的环境下表现高效。然而,其局限性也很明显:如果模型过度依赖二维图像的模式识别,或仅仅模仿离线轨迹数据,当空间布局变化、物体位置改变、任务流程延长,或需要处理真实物理接触反馈时,就容易出现动作不稳定、目标丢失,甚至局部动作正确但整体任务失败的情况。简而言之,单纯模仿动作远远不够,模型必须深刻理解每个动作背后的物理逻辑和因果原理。
空弈 DobotWAM 为何能取得如此优异的成绩?这得益于其在感知、理解、控制以及数据闭环等多个维度的系统化设计。具体而言,在视觉-语言-动作建模的基础上,该模型额外融入了对三维空间的深度理解,并将机器人运动时的几何约束纳入考量,同时结合真实场景的数据闭环机制。由此,机器人学到的不仅是动作的表象,更是动作背后的深层结构与物理逻辑。
以几个典型实操任务为例,如多场景下的分类抓取、充电器插头插接、笔帽盖回笔身等。这些任务看似简单,实则都是高精度的接触操作,考验模型在以下三个层面的核心能力:
第一,小目标的精确定位与姿态估计——需准确判断插头的朝向、笔帽开口的位置;第二,在强几何约束条件下,末端执行器能否精准到位;第三,接触动作执行过程中,能否稳定操作并实时修正微小误差。
在实际测试中,空弈大模型成功实现了这些要求。它根据视觉信息定位目标,结合机器人自身状态实时生成动作指令,机械臂在真实环境中稳定完成了抓取和充电器插接的全流程。在笔帽插接任务中,模型准确判断笔身与笔帽的相对位置及开口方向,完成轴线对准后一气呵成地插入,整个过程姿态保持平稳。
