上海创智学院联合智元发布可训练动作想象力的具身世界模型

时间：2026-05-29 06:30

上海创智学院与智元机器人联合发布自主研发的开源具身世界模型τ‑0WM，通过统一动作语言同步训练机器人动作生成与未来状态推演能力，仅需少量示范即可迁移至新任务，在多种机器人上完成精细操作验证。

如今的机器人，能力确实与日俱增，但一旦放入真实世界，距离人们期待的“全能伙伴”仍有明显差距。核心挑战在于：如何让机器人自动学会技能迁移，从而变得更加智能？

5月28日，上海创智学院与智元机器人具身研究中心联合发布了名为 τ‑0WM 的具身世界模型，这是一款自主研发并开源的成果。它的目标非常清晰——为机器人配备一个既能预演未来、又能精准执行的“通用大脑”。

简单来说，这个模型正在做一件特别的事：同时训练机器人的“身体”与“想象力”。

上海创智学院全职导师、智元机器人合伙人、首席科学家罗剑岚给出了更具体的解释：τ‑0WM 借助多通道数据预训练，能够同步提升机器人对未来状态的推演能力以及动作生成能力。在此基础上，它构建了一个完整系统，将动作预测、未来状态模拟和部署态动作优化全部整合在一起。最终，该系统在多种不同构型的机器人本体上，针对精细操作任务完成了验证。

那么，这相当于什么？它意味着机器人不仅学会“如何行动”，还能提前在脑海中“脑补”出动作的结果。接着再利用这种“想象力”筛选出最优动作，最后部署到真实机器人上执行。

数据困境与“统一语言”

为什么需要这样的模型？因为当前机器人训练正面临一个现实难题——数据不足。

具体而言，真机采集的数据动作精度高，但场景过于单一，换个环境就可能失效；使用简易手持夹爪采集的数据虽然场景丰富，可操作方式与真实机器人差异巨大，动作根本无法匹配；网络上虽有海量人类操作视频，却缺少机器人所需的关节动作数据；而那些开源的机器人数据更是散落在各处，格式标准完全不统一。

行业中最基础也最迫切的需求，就是统一机器人的动作“语言”。τ‑0WM 的解法是构建一个“既能想象又能执行”的通用模型。第一步，通过“统一动作语言”，将来自不同来源的动作数据全部转换为相对末端6维位姿——这相当于把各地的方言统一翻译成普通话。第二步，训练一个“动作条件世界模型”。给定当前画面和一段动作方案，模型就能直接生成执行动作后的未来画面，相当于给机器人装上了一个内置的快速仿真器，从大量混合视频中学会了模拟机器人与物体的交互。

更有趣的是，面对同一任务，τ‑0WM 能让机器人在“大脑”中先推演出多种完成方式，然后快速模拟每种方案，直接选出未来画面最成功、最稳定的那个动作来执行。这就像下棋时先在心里推演几步，再走出最妙的一招。

极少量示范，就能迁移新任务

那这个模型实际部署的效果究竟如何？

根据研发团队的反馈，τ-0WM 可以根据端侧算力、任务难度和推理速度灵活调整候选轨迹数量和推演步数，在执行效率与推理时间之间找到平衡。经过训练，模型展现出相当强的落地能力和抗干扰能力。最关键的是，它只需要极少次数的真人示范，就能快速迁移到一个全新的精细任务中。

换句话说，即使作业过程中物体被碰歪，或者出现意外干扰，它也能自行调整。这种鲁棒性在实际应用中非常关键。

举个例子，在收纳羽毛球的任务中，机器人需要将散落一地的羽毛球依次装进球桶，再盖上盖子压紧。未经预训练的模型需要超过1000条高质量示范数据才能勉强完成任务，而 τ-0WM 只需400条数据即可搞定。更厉害的是，光照变化、背景画面不同、羽毛球位置移动，都不会影响它的精度。

更值得关注的是，τ-0WM 可以在多种不同构型的机器人上部署，并完成精细操作任务。研发团队在3种不同构型的机器人上进行了评测，涵盖整理工具箱、装书包、安装水管和收纳羽毛球这4种精细操作任务。在所有这些任务上，τ-0WM 的成功率均超过了其他具身基准模型。这些任务并不简单，都涉及精细夹取和力量控制，例如拉开书包拉链，或将水管插入水龙头并拧紧。

从“零号版本”开始，逐步深入

“当下整个具身智能的技术路线尚未收敛，仍需要大胆探索。”罗剑岚说，“τ-0 不是终点，而是零号版本。我们希望从世界模型开始，逐步走向动作模型、闭环学习和更大规模的具身基础模型。随着τ版本号的增加，既代表模型能力的提升，也代表我们对具身智能路线探索得越来越深入。”

来源：https://www.163.com/dy/article/KU25E7TG05506BEH.html

智元机器人