近期,具身智能领域迎来重磅消息——WorldArena Track1(世界模型感知与动作响应赛道)最新评测结果正式公布。智元机器人自主研发的世界模型Genie Envisioner-Sim 2.0(简称GE 2.0)凭借卓越的综合表现,一举荣登榜首。

这条赛道评测的是具身智能最核心的能力:认知与行动。通俗而言,就是考察机器人能否理解环境并发起正确动作,这也是衡量通用人形机器人智能化程度的核心标尺。值得注意的是,智元团队此次使用的是自家原生的世界模型GE 2.0,并未经过任何特殊定制,仅基于榜单数据进行了基础微调(Finetune)。“轻装上阵”仍能拿下第一,充分说明GE 2.0的通用适配能力相当出色。面对近期世界模型方向的火热关注与创业浪潮,智元始终保持自身节奏,从长远的第一性原理出发,专注于夯实具身世界模型的技术底座。本次登顶,正是其坚持长期技术演進的有力证明。

在GE 2.0的技术报告中,团队对模型进行了全面剖析。相较上一代,GE 2.0不只是单点性能的提升,而是真正进化为一款全功能、高可用的世界模拟器。具体而言,它能够构建虚拟仿真环境,让机器人策略在其中自主试错、迭代与进化,最后高效迁移到真实物理世界。这样一来,大幅降低了真实场景中的试错成本,真正实现了从“感知预测”到“仿真进化、自主决策”的闭环升级。
在具体功能维度,GE 2.0首次完整覆盖了长时序生成、多视角生成、本体状态生成、近实时推理和奖励判别等核心环节,将世界模拟器的能力闭环补全。
在长时序推演方面,GE 2.0的稳定性尤为突出。画面质量随推理时长下降的速度,显著慢于行业基线方案。即便连续推演40至50秒的长视频,前10秒的生成质量依然优于基线模型的表现。

作为世界模拟器,能否真实反映物理世界至关重要。团队开展了大量闭环评测,证明GE 2.0在多项任务上与真实世界保持强相关性。不仅如此,除了宏观统计上的“成功率一致”,他们还逐案(Case-by-case)进行了rollout结果对比,并借助混淆矩阵(Confusion Matrix)给出了严谨的量化证据。这表明GE 2.0作为策略评测器,具备高度的可靠性。
更值得关注的是,GE 2.0还可借助奖励模型(Reward Model)自动筛选闭环评测中产出的高质量数据,精准回流给策略模型(Policy Model)。实验结果显示,该机制在多个任务上为策略模型带来了显著的性能提升。

2026年被认为是具身智能的“部署态”元年——机器人需从实验室走向真实场景规模化部署,真正释放生产力。这对算法提出了更高的要求。专注底层技术攻坚与产业价值落地,是智元一贯坚持的技术理念。无论是本次WorldArena榜单的成绩,还是技术报告中的性能论证,都彰显了Genie Envisioner技术路线的巨大潜力。未来,智元将持续迭代世界模拟器技术体系,打通具身智能技术闭环,加速世界模型在真实场景中的落地应用,为人形机器人规模化部署夯实核心技术基础。
