

如今的机器人,能力确实与日俱增,但一旦放入真实世界,距离人们期待的“全能伙伴”仍有明显差距。核心挑战在于:如何让机器人自动学会技能迁移,从而变得更加智能?
5月28日,上海创智学院与智元机器人具身研究中心联合发布了名为 τ‑0WM 的具身世界模型,这是一款自主研发并开源的成果。它的目标非常清晰——为机器人配备一个既能预演未来、又能精准执行的“通用大脑”。
简单来说,这个模型正在做一件特别的事:同时训练机器人的“身体”与“想象力”。
上海创智学院全职导师、智元机器人合伙人、首席科学家罗剑岚给出了更具体的解释:τ‑0WM 借助多通道数据预训练,能够同步提升机器人对未来状态的推演能力以及动作生成能力。在此基础上,它构建了一个完整系统,将动作预测、未来状态模拟和部署态动作优化全部整合在一起。最终,该系统在多种不同构型的机器人本体上,针对精细操作任务完成了验证。
那么,这相当于什么?它意味着机器人不仅学会“如何行动”,还能提前在脑海中“脑补”出动作的结果。接着再利用这种“想象力”筛选出最优动作,最后部署到真实机器人上执行。
数据困境与“统一语言”
为什么需要这样的模型?因为当前机器人训练正面临一个现实难题——数据不足。
具体而言,真机采集的数据动作精度高,但场景过于单一,换个环境就可能失效;使用简易手持夹爪采集的数据虽然场景丰富,可操作方式与真实机器人差异巨大,动作根本无法匹配;网络上虽有海量人类操作视频,却缺少机器人所需的关节动作数据;而那些开源的机器人数据更是散落在各处,格式标准完全不统一。
行业中最基础也最迫切的需求,就是统一机器人的动作“语言”。τ‑0WM 的解法是构建一个“既能想象又能执行”的通用模型。第一步,通过“统一动作语言”,将来自不同来源的动作数据全部转换为相对末端6维位姿——这相当于把各地的方言统一翻译成普通话。第二步,训练一个“动作条件世界模型”。给定当前画面和一段动作方案,模型就能直接生成执行动作后的未来画面,相当于给机器人装上了一个内置的快速仿真器,从大量混合视频中学会了模拟机器人与物体的交互。
更有趣的是,面对同一任务,τ‑0WM 能让机器人在“大脑”中先推演出多种完成方式,然后快速模拟每种方案,直接选出未来画面最成功、最稳定的那个动作来执行。这就像下棋时先在心里推演几步,再走出最妙的一招。
极少量示范,就能迁移新任务
那这个模型实际部署的效果究竟如何?
根据研发团队的反馈,τ-0WM 可以根据端侧算力、任务难度和推理速度灵活调整候选轨迹数量和推演步数,在执行效率与推理时间之间找到平衡。经过训练,模型展现出相当强的落地能力和抗干扰能力。最关键的是,它只需要极少次数的真人示范,就能快速迁移到一个全新的精细任务中。
换句话说,即使作业过程中物体被碰歪,或者出现意外干扰,它也能自行调整。这种鲁棒性在实际应用中非常关键。
举个例子,在收纳羽毛球的任务中,机器人需要将散落一地的羽毛球依次装进球桶,再盖上盖子压紧。未经预训练的模型需要超过1000条高质量示范数据才能勉强完成任务,而 τ-0WM 只需400条数据即可搞定。更厉害的是,光照变化、背景画面不同、羽毛球位置移动,都不会影响它的精度。
更值得关注的是,τ-0WM 可以在多种不同构型的机器人上部署,并完成精细操作任务。研发团队在3种不同构型的机器人上进行了评测,涵盖整理工具箱、装书包、安装水管和收纳羽毛球这4种精细操作任务。在所有这些任务上,τ-0WM 的成功率均超过了其他具身基准模型。这些任务并不简单,都涉及精细夹取和力量控制,例如拉开书包拉链,或将水管插入水龙头并拧紧。
从“零号版本”开始,逐步深入
“当下整个具身智能的技术路线尚未收敛,仍需要大胆探索。”罗剑岚说,“τ-0 不是终点,而是零号版本。我们希望从世界模型开始,逐步走向动作模型、闭环学习和更大规模的具身基础模型。随着τ版本号的增加,既代表模型能力的提升,也代表我们对具身智能路线探索得越来越深入。”
