游乐游手机版
首页/AI热点日报/热点详情

地瓜发布帧级闭环世界模型 可通用于所有机器人

类型:热点整理2026-07-03
地瓜机器人发布帧级闭环世界模型Uranus,基于视频扩散架构,通过参考图像、关节状态、相机参数和文本描述自回归生成多视角连续交互视频。模型支持跨机器人零样本泛化,实现分钟级稳定闭环推演,多视图空间一致,并引入KV-Cache优化算力,提供1 3B与14B版本。

近日,地瓜机器人算法团队正式发布了他们的世界模型——Uranus。这个命名颇具深意,象征着一种开创性的探索精神。简单来说,Uranus是一款基于视频扩散模型、采用帧级闭环模式运行的交互式世界模型。

其核心能力可概括为:用户只需提供几帧参考图像、机器人当前的关节状态、相机参数,再加上一句简洁的文本描述(例如“抓取前方的物体”),模型就能像神笔马良一样,自回归地生成多相机视角下连续、可控的未来视频流,完整模拟机器人与环境之间的交互过程。

▲Uranus模型架构:模型在参考帧和历史帧约束下,根据输入的动作通过flow matching生成下一帧

在技术路线上,Uranus选择以预训练的Wan 2.1视频DiT骨干网络为基础,采用一阶段训练方案。这意味着它无需复杂的多阶段训练流程,即可直接产出分钟级的、可交互的视频内容。

▲Uranus训练过程使用的Causal Mask

为了适配不同场景的研究与部署需求,Uranus提供了1.3B14B两个参数量级版本:前者适合快速实验验证,后者则对标高保真的闭环生成任务。

下面两个演示视频,直观展示了Uranus在帧级闭环模式下,对两种完全不同的机器人、在不同轨迹下的交互仿真效果:

G1人形机器人,在多个不同场景中执行不同操作轨迹,Uranus可以实时生成多相机视角下的连贯交互画面:

▲G1机器人完成商品条码扫描,三路相机视角同步输出,帧级闭环连续rollout。

而Franka协作机械臂,同样展现了Uranus的能力。它在不同环境和轨迹下执行操作,模型具备跨具身泛化能力,并且能对复杂的末端执行器轨迹做出精确响应:

▲Franka机械臂完成物品抓放,展示闭环模式下对末端执行器姿态、夹爪开合的精确控制。

一、首创逐帧闭环仿真,可随时更改指令、即时获得反馈

开发一台能自主完成复杂任务的机器人,背后需要海量的测试与验证。然而现实挑战严峻:真机测试不仅成本高昂、耗时巨大,而且许多场景和失败难以复现。一台机械臂想在真实世界中试错成千上万次?这几乎难以想象。

传统仿真器(如Isaac Sim、MuJoCo等工具)虽然提供了替代方案——先在虚拟环境中验证算法,再迁移到真实世界,但这条路并非一帆风顺。原因在于:手工构建仿真场景本身就是一项大工程——3D建模、材质设定、物理参数调校……每一个新环境都需要数天甚至数周的搭建时间。换一个场景,就要从头再来一遍。

这引出了一个核心问题:有没有一种方法,能像生成图片和视频一样,直接“生成”一个仿真环境?更进一步,能否让它像真正的仿真器那样,做到逐帧交互、逐帧闭环,而不是一次性输出一段固定的视频?

Uranus给出的答案是:抛弃传统开环生成方案那种“提前录入完整动作序列、一次性输出全部视频”的老路,转而采用仿真器式逐帧运行架构。这一交互逻辑的升级,是根本性的突破。

整套系统的工作流程如下:模型结合参考图像、历史画面以及用户实时发出的动作指令,推算出机器人下一时刻、多个机位相机对应的视觉画面。每一帧生成完成后,画面会即时存入历史上下文窗口,作为后续帧推理的输入依据,从而形成一个完整的闭环反馈。

逐帧推理的底层设计,带来了一项非常实用的能力:用户可以随时更改动作指令,模型会即时做出对应的视觉反馈,实现真正的动态操控。就像操控真实的机器人一样,指令变了,画面随即跟着改变。

对于使用者而言,流程也大幅简化:只需上传初始场景画面与机器人模型文件,即可在虚拟视觉环境中,像操控实体机器人一样完成各类调试操作。全程无需任何人工搭建三维模型,这堪称真正意义上的仿真测试新范式。

二、四大技术亮点,破解长时序闭环难题

Uranus能够实现上述能力,背后依靠四大技术亮点,每一项都针对实际痛点,堪称硬核功夫。

1、跨具身零样本泛化

传统方案有一个长期难题:换一个机器人,就得重新训练一个专属模型。Uranus通过一套统一骨架渲染管线,实现了机器人本体结构与模型输入的彻底解耦。

具体来说,用户只需上传URDF或MJCF格式的机器人描述文件,并输入关节位置数据,系统就能通过前向运动学算法计算出三维关节坐标,再投射到相机平面生成骨架图像。依靠这套机制,单一模型可以同时适配G1人形机器人、Franka协作机械臂、双臂机器人,甚至是移动机器人平台,真正做到了“一套模型,全家通用”。

这套能力对闭环交互流程至关重要:在闭环运行逻辑中,模型会持续将上一帧输出预测作为下一帧输入。如果模型只能适配单一机器人,切换设备就意味着必须重新训练,那么这套闭环体系根本无法实现通用化。Uranus的管线,正是把各类机器人的运动转化为统一的图像表征,实现了真正的跨机型泛化。

2、分钟级闭环稳定生成

帧级闭环运行的最大技术难题,当属误差累积。模型每生成一帧,都会产生微小的预测偏差,这个偏差会作为前置数据输入下一阶段。持续迭代几十帧后,画面就会像“滚雪球”一样失真、崩坏——这是所有视频生成模型都畏惧的问题。多数模型只能生成几秒的开环画面,根源就在于此。

Uranus通过三项核心设计,硬生生打通了长时序闭环推演的瓶颈:

  • 因果注意力掩码(Causal Mask):该设计限定了单帧只能读取过往的时序信息,严格匹配了自回归闭环的因果逻辑。简单来说,就是“只看过去,不看未来”。
  • 帧相对位置编码(Frame-Relative RoPE):这是一个巧妙的技巧:模型只用短片段完成训练,但推理阶段却能适配任意时长的闭环连续推演。好比一位短跑运动员,经过训练后,不仅能跑短跑,还能跑马拉松。
  • 参考帧注意力汇(Reference Sink):利用Transformer原生的注意力汇聚特性,把初始基准帧长期保留在上下文窗口中,充当视觉参照。即便闭环持续运行数百上千步,模型依然保有清晰的原始画面作为参照,极大缓解了画面偏移与失真问题。

3、多视图空间一致

真实的机器人身上通常搭载多套摄像设备,比如手部相机和环境外置相机,这对多视角画面的空间一致性提出了极高要求。Uranus能同步渲染三路及以上的相机画面,并且让多视角画面维持统一的空间几何关系——也就是说,同一物体在不同相机视角下的位置、大小、遮挡关系都是逻辑自洽的。

算法团队为此设计了一种交替时空注意力架构:空间计算模式让同步帧下的各相机视图互通特征信息,保证多视角空间逻辑统一;时间计算模式则让单台相机沿时间维度建模运动变化。在闭环推演阶段,只有时间模块需要生成KVCache缓存,大幅降低了算力开销。两种计算模式在模型的DiT网络层级中交替运行,巧妙地平衡了图像生成效果与运算效率。

4、精确的相机轨迹控制

在仿真测试中,很多时候需要灵活调整相机视角。Uranus借助普吕克射线嵌入技术,将每一帧相机的内参、外参转化为逐像素的稠密几何特征。关键的是,这套表征完全依托相机标定参数生成,无需模型额外学习。

这对闭环交互场景带来一个直观好处:用户可以像操作常规仿真工具一样,随时调整相机位姿。模型会依据更新后的相机参数,在下一帧同步输出匹配新机位的画面,为精细化调试提供了极大的便利。

三、引入KV-Cache缓存,算力开销恒定可控

帧级闭环推演,除了算法挑战,工程层面的性能压力同样巨大。模型每生成一帧画面,都要完成一轮完整的去噪扩散流程。如果每一步都从头计算注意力特征,计算开销会随着序列长度呈平方级暴涨,长时序闭环运行几乎不可能。

针对这一瓶颈,算法团队为Uranus引入了KV-Cache缓存与滑动窗口机制。在预填充阶段,系统会提前计算并缓存关键的特征。与此同时,平台通过滑动窗口淘汰机制动态管理时序数据——当历史帧数量超出窗口阈值时,系统会自动舍弃最早的帧数据,从而始终保持单步推理开销的稳定可控。

在训练层面,团队融合了HSDP、序列并行与VAE分块并行的混合训练策略,使得模型能够支撑64卡大规模集群训练,高效完成长时序模型的迭代优化。

推理阶段,模型则依托KV-Cache、滑动窗口淘汰与序列并行三重优化,实现了恒定层级的单步延迟与显存占用。这意味着,无论闭环生成多少帧画面,模型的算力开销始终保持在一个稳定水平上,能够稳定支撑多个环境并行的实时推演。

结语:地瓜机器人让机器人自主学习环境交互

回顾来看,帧级闭环是Uranus区别于普通视频生成模型最核心、最独特的差异化能力。它所构建的框架能够逐帧接收操控指令、逐帧输出视觉画面,并将生成画面回输作为下一帧的输入条件。正是这套完整的闭环逻辑,让它从“演示级”的视频生成,成长为具备实操价值的“交互式仿真工具”。

地瓜机器人算法团队的整套方案,走的是数据驱动的路线,核心目标就是让机器人依托虚拟视觉推演,完成与环境交互的自主学习。这无疑为机器人仿真与泛化领域打开了一扇全新的大门。

来源:https://www.zhidx.com/p/569894.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。