地瓜发布帧级闭环世界模型可通用于所有机器人_AI热点日报

地瓜发布帧级闭环世界模型可通用于所有机器人

类型：热点整理2026-07-03

地瓜机器人发布帧级闭环世界模型Uranus，基于视频扩散架构，通过参考图像、关节状态、相机参数和文本描述自回归生成多视角连续交互视频。模型支持跨机器人零样本泛化，实现分钟级稳定闭环推演，多视图空间一致，并引入KV-Cache优化算力，提供1 3B与14B版本。

近日，地瓜机器人算法团队正式发布了他们的世界模型——Uranus。这个命名颇具深意，象征着一种开创性的探索精神。简单来说，Uranus是一款基于视频扩散模型、采用帧级闭环模式运行的交互式世界模型。

其核心能力可概括为：用户只需提供几帧参考图像、机器人当前的关节状态、相机参数，再加上一句简洁的文本描述（例如“抓取前方的物体”），模型就能像神笔马良一样，自回归地生成多相机视角下连续、可控的未来视频流，完整模拟机器人与环境之间的交互过程。

▲Uranus模型架构：模型在参考帧和历史帧约束下，根据输入的动作通过flow matching生成下一帧

在技术路线上，Uranus选择以预训练的Wan 2.1视频DiT骨干网络为基础，采用一阶段训练方案。这意味着它无需复杂的多阶段训练流程，即可直接产出分钟级的、可交互的视频内容。

▲Uranus训练过程使用的Causal Mask

为了适配不同场景的研究与部署需求，Uranus提供了1.3B和14B两个参数量级版本：前者适合快速实验验证，后者则对标高保真的闭环生成任务。

下面两个演示视频，直观展示了Uranus在帧级闭环模式下，对两种完全不同的机器人、在不同轨迹下的交互仿真效果：

G1人形机器人，在多个不同场景中执行不同操作轨迹，Uranus可以实时生成多相机视角下的连贯交互画面：

▲G1机器人完成商品条码扫描，三路相机视角同步输出，帧级闭环连续rollout。

而Franka协作机械臂，同样展现了Uranus的能力。它在不同环境和轨迹下执行操作，模型具备跨具身泛化能力，并且能对复杂的末端执行器轨迹做出精确响应：

▲Franka机械臂完成物品抓放，展示闭环模式下对末端执行器姿态、夹爪开合的精确控制。

一、首创逐帧闭环仿真，可随时更改指令、即时获得反馈

开发一台能自主完成复杂任务的机器人，背后需要海量的测试与验证。然而现实挑战严峻：真机测试不仅成本高昂、耗时巨大，而且许多场景和失败难以复现。一台机械臂想在真实世界中试错成千上万次？这几乎难以想象。

传统仿真器（如Isaac Sim、MuJoCo等工具）虽然提供了替代方案——先在虚拟环境中验证算法，再迁移到真实世界，但这条路并非一帆风顺。原因在于：手工构建仿真场景本身就是一项大工程——3D建模、材质设定、物理参数调校……每一个新环境都需要数天甚至数周的搭建时间。换一个场景，就要从头再来一遍。

这引出了一个核心问题：有没有一种方法，能像生成图片和视频一样，直接“生成”一个仿真环境？更进一步，能否让它像真正的仿真器那样，做到逐帧交互、逐帧闭环，而不是一次性输出一段固定的视频？

Uranus给出的答案是：抛弃传统开环生成方案那种“提前录入完整动作序列、一次性输出全部视频”的老路，转而采用仿真器式的逐帧运行架构。这一交互逻辑的升级，是根本性的突破。

整套系统的工作流程如下：模型结合参考图像、历史画面以及用户实时发出的动作指令，推算出机器人下一时刻、多个机位相机对应的视觉画面。每一帧生成完成后，画面会即时存入历史上下文窗口，作为后续帧推理的输入依据，从而形成一个完整的闭环反馈。

逐帧推理的底层设计，带来了一项非常实用的能力：用户可以随时更改动作指令，模型会即时做出对应的视觉反馈，实现真正的动态操控。就像操控真实的机器人一样，指令变了，画面随即跟着改变。

对于使用者而言，流程也大幅简化：只需上传初始场景画面与机器人模型文件，即可在虚拟视觉环境中，像操控实体机器人一样完成各类调试操作。全程无需任何人工搭建三维模型，这堪称真正意义上的仿真测试新范式。

二、四大技术亮点，破解长时序闭环难题

Uranus能够实现上述能力，背后依靠四大技术亮点，每一项都针对实际痛点，堪称硬核功夫。

1、跨具身零样本泛化

传统方案有一个长期难题：换一个机器人，就得重新训练一个专属模型。Uranus通过一套统一骨架渲染管线，实现了机器人本体结构与模型输入的彻底解耦。

具体来说，用户只需上传URDF或MJCF格式的机器人描述文件，并输入关节位置数据，系统就能通过前向运动学算法计算出三维关节坐标，再投射到相机平面生成骨架图像。依靠这套机制，单一模型可以同时适配G1人形机器人、Franka协作机械臂、双臂机器人，甚至是移动机器人平台，真正做到了“一套模型，全家通用”。

这套能力对闭环交互流程至关重要：在闭环运行逻辑中，模型会持续将上一帧输出预测作为下一帧输入。如果模型只能适配单一机器人，切换设备就意味着必须重新训练，那么这套闭环体系根本无法实现通用化。Uranus的管线，正是把各类机器人的运动转化为统一的图像表征，实现了真正的跨机型泛化。

2、分钟级闭环稳定生成

帧级闭环运行的最大技术难题，当属误差累积。模型每生成一帧，都会产生微小的预测偏差，这个偏差会作为前置数据输入下一阶段。持续迭代几十帧后，画面就会像“滚雪球”一样失真、崩坏——这是所有视频生成模型都畏惧的问题。多数模型只能生成几秒的开环画面，根源就在于此。

Uranus通过三项核心设计，硬生生打通了长时序闭环推演的瓶颈：

因果注意力掩码（Causal Mask）：该设计限定了单帧只能读取过往的时序信息，严格匹配了自回归闭环的因果逻辑。简单来说，就是“只看过去，不看未来”。
帧相对位置编码（Frame-Relative RoPE）：这是一个巧妙的技巧：模型只用短片段完成训练，但推理阶段却能适配任意时长的闭环连续推演。好比一位短跑运动员，经过训练后，不仅能跑短跑，还能跑马拉松。
参考帧注意力汇（Reference Sink）：利用Transformer原生的注意力汇聚特性，把初始基准帧长期保留在上下文窗口中，充当视觉参照。即便闭环持续运行数百上千步，模型依然保有清晰的原始画面作为参照，极大缓解了画面偏移与失真问题。

3、多视图空间一致

真实的机器人身上通常搭载多套摄像设备，比如手部相机和环境外置相机，这对多视角画面的空间一致性提出了极高要求。Uranus能同步渲染三路及以上的相机画面，并且让多视角画面维持统一的空间几何关系——也就是说，同一物体在不同相机视角下的位置、大小、遮挡关系都是逻辑自洽的。

算法团队为此设计了一种交替时空注意力架构：空间计算模式让同步帧下的各相机视图互通特征信息，保证多视角空间逻辑统一；时间计算模式则让单台相机沿时间维度建模运动变化。在闭环推演阶段，只有时间模块需要生成KVCache缓存，大幅降低了算力开销。两种计算模式在模型的DiT网络层级中交替运行，巧妙地平衡了图像生成效果与运算效率。

4、精确的相机轨迹控制

在仿真测试中，很多时候需要灵活调整相机视角。Uranus借助普吕克射线嵌入技术，将每一帧相机的内参、外参转化为逐像素的稠密几何特征。关键的是，这套表征完全依托相机标定参数生成，无需模型额外学习。

这对闭环交互场景带来一个直观好处：用户可以像操作常规仿真工具一样，随时调整相机位姿。模型会依据更新后的相机参数，在下一帧同步输出匹配新机位的画面，为精细化调试提供了极大的便利。

三、引入KV-Cache缓存，算力开销恒定可控

帧级闭环推演，除了算法挑战，工程层面的性能压力同样巨大。模型每生成一帧画面，都要完成一轮完整的去噪扩散流程。如果每一步都从头计算注意力特征，计算开销会随着序列长度呈平方级暴涨，长时序闭环运行几乎不可能。

针对这一瓶颈，算法团队为Uranus引入了KV-Cache缓存与滑动窗口机制。在预填充阶段，系统会提前计算并缓存关键的特征。与此同时，平台通过滑动窗口淘汰机制动态管理时序数据——当历史帧数量超出窗口阈值时，系统会自动舍弃最早的帧数据，从而始终保持单步推理开销的稳定可控。

在训练层面，团队融合了HSDP、序列并行与VAE分块并行的混合训练策略，使得模型能够支撑64卡大规模集群训练，高效完成长时序模型的迭代优化。

推理阶段，模型则依托KV-Cache、滑动窗口淘汰与序列并行三重优化，实现了恒定层级的单步延迟与显存占用。这意味着，无论闭环生成多少帧画面，模型的算力开销始终保持在一个稳定水平上，能够稳定支撑多个环境并行的实时推演。

结语：地瓜机器人让机器人自主学习环境交互

回顾来看，帧级闭环是Uranus区别于普通视频生成模型最核心、最独特的差异化能力。它所构建的框架能够逐帧接收操控指令、逐帧输出视觉画面，并将生成画面回输作为下一帧的输入条件。正是这套完整的闭环逻辑，让它从“演示级”的视频生成，成长为具备实操价值的“交互式仿真工具”。

地瓜机器人算法团队的整套方案，走的是数据驱动的路线，核心目标就是让机器人依托虚拟视觉推演，完成与环境交互的自主学习。这无疑为机器人仿真与泛化领域打开了一扇全新的大门。

来源：https://www.zhidx.com/p/569894.html

世界模型

延伸阅读

补充最近整理过的热点入口。