具身智能两大世界第一揭秘行业巨头探寻其真实身份

首页

热心网友

转载

2026-05-18

近期，世界模型领域动态频频，竞争日趋白热化。

李飞飞教授创立的具身智能公司 World Labs 高调发布了「Spark 2.0」模型；几乎同时，阿里巴巴也推出了自家的世界模型「快乐生蚝」。此外，Physical Intelligence 公司发布了新模型 π 0.7，重点强调了其在未见任务上的组合泛化能力以及跨机器人平台的迁移特性。

这一系列密集动作传递出一个明确信号：行业竞争的焦点，正从单一的“执行特定动作”能力，转向更为核心的挑战——谁能率先实现“预测物理世界”与“生成控制动作”在同一个模型内的统一。

就在这个关键节点，一款名为 MotuBrain 的神秘世界模型，悄然登上了两项国际权威基准测试的榜首，且未公开任何所属机构信息。

若仅在某一个榜单夺魁或许不足为奇，但 MotuBrain 同时征服的两个榜单，恰恰代表了当前行业探索的两个核心方向：其一是评估世界模型“是否真正理解并能预测现实世界动态”的 WorldArena 基准；其二是衡量机器人任务执行与泛化能力的 RoboTwin2.0 基准。一个侧重世界预测，一个侧重行动执行，两者的结合，正好对应了业界亟待攻克的统一智能体难题。

双榜夺冠，MotuBrain 的优势何在？

在 WorldArena 基准测试中，MotuBrain 以 63.77 的综合 EWM 分数位列第一。其表现超越了高德的 ABot、极佳的 GigaWorld-1 等知名模型，并在运动质量、流畅度评分、运动平滑性等多个关键评估维度上全面领先。

图片来源：https://huggingface.co/spaces/WorldArena/WorldArena

而在 RoboTwin2.0 基准中，MotuBrain 在 Clean（清洁）和 Randomized（随机化）两种测试场景下，分别取得了 95.8 和 96.1 的高分，同样排名第一。它是该榜单上唯一在随机环境下平均分超过 95 的模型，在大多数具体任务中的成功率也达到或接近 100%。相较于高德 ABot、蚂蚁灵波 LingBot、JEPA-VLA、pi0.5 等模型，MotuBrain 在 RoboTwin 测试中展现了统治级的性能。

正是这种在两大不同维度基准上同时登顶的表现，让这款来历不明的模型备受关注。

目前，网络上关于 MotuBrain 的公开信息极少。不过，人们发现了一个本月刚刚注册的 X（原 Twitter）账号，这不禁让人联想到此前被阿里认领的“欢乐马”（后续也开通了 X 账号）。这款神秘的世界模型，是否也出自国内某家大厂之手？

为何 MotuBrain 的双料冠军意义重大？

WorldArena 和 RoboTwin 基准测试考察的是两种不同但互补的能力。

WorldArena 主要评估世界模型的本质能力，包括模型对物理运动规律的理解、对时间序列中未来状态变化的准确预测推演，以及对环境状态变化的认知水平。这本质上是在测试模型“预测世界”的物理常识与推理能力。

RoboTwin 则更侧重于评估行动模型或策略模型，例如模型能否在多种任务和环境下稳定、精确地执行动作指令，能否泛化到未经训练的新场景，以及是否具备完成复杂长周期操作序列的能力。这测试的是模型“在世界中行动”的规划与控制能力。

我们可以用人类驾驶来类比。一位熟练的司机能在复杂路况下安全行驶，依靠的不仅是条件反射式的操作，更是对前方动态的持续预判：前车是否会急刹？行人是否会突然闯入？这种将环境预测与即时行动决策无缝结合的能力，正是高级智能的体现。

然而，现有的多数机器人或具身智能系统，往往缺乏这种统一性。它们要么擅长感知和理解环境，但无法生成可靠的动作序列；要么能执行预设动作，却对环境变化缺乏预测和应变能力。这种“感知”与“行动”的割裂，导致系统在脱离训练过的固定场景后，性能极易大幅下降。

近年来，这两个方向的研究虽并行发展，但大多处于割裂状态。专注于视频生成与世界模型的团队，主要研究如何逼真地模拟物理世界；而专注于机器人策略与视觉语言动作模型的团队，则着力于提升任务执行的可靠性。真正尝试将二者深度统一的工作并不多见，能取得稳定优异成果的更是凤毛麟角。

MotuBrain 能够在两类基准上同时取得顶尖成绩，至少在基准测试层面证明了一件事：将“世界预测”与“行动生成”统一在同一个模型架构内，这条技术路线是可行且具有巨大潜力的。

幕后团队是谁？可能采用了何种技术路线？

目前关于 MotuBrain 的公开技术细节极少，但从其双榜夺冠的成绩结构分析，它很可能既不是传统的视频预测模型，也不是单纯的视觉语言动作模型或策略模型。

回顾过去一年，行业内在世界模型和行动模型的探索上，形成了若干条有代表性的技术路径。

有的路线强调构建统一的世界模型，通过对视觉、语言、视频与动作数据进行联合建模，融合视频预测、VLA、世界模型等多种能力，旨在实现对外部环境的统一感知、规划、预测与执行，并具备跨任务泛化能力。例如去年12月发布的 Motus 模型便是这一方向的代表。

有的路线则倾向于“先想象，再行动”的范式，例如今年一月底发布的 Lingbot-VA，其思路是先利用视频预测模型生成未来的环境状态变化，再基于此预测结果来指导机器人的动作决策，尝试将两个过程融合。

还有一些研究走的是“同步推演未来状态并生成动作”的路线，即世界行动模型，它要求模型能一边推演环境的下一步变化，一边实时生成相应的控制指令，例如英伟达在二月初发布的 DreamZero 便属于此类。

从 MotuBrain 的表现来看，它很可能走的是偏向“世界行动模型”的路线，兼具了对环境动态进行预测推演的世界建模能力，以及在复杂任务中生成可靠动作序列的行动能力。这正好解释了它为何能同时在考察“世界理解”和“动作执行”的两类基准测试中拔得头筹。

总结与展望

如果将一台机器人进行拆解，可以将其“躯干与四肢”视为硬件部分，而“决策与控制中枢”则是软件与算法部分，即机器人的“大脑”。

过去几年，机器人硬件的进步有目共睹：运动控制更加精准，传感器日益丰富多元，制造成本持续下降。然而，真正制约机器人实现大规模普及和应用的关键瓶颈，恰恰在于指挥其行动的“大脑”的智能水平。

当前的机器人系统，本质上大多仍是“为特定任务训练的专用程序”。一旦更换任务场景、操作对象或指令形式，系统性能就可能急剧下降甚至完全失效。这归根结底是通用智能能力不足的问题。

具身智能的终极目标，是构建一个通用的、统一的智能模型。这个模型既能深刻理解物理世界的运作规律并预测其变化，又能根据这种理解生成适应性的、可靠的动作序列，从而能够灵活应对各种未知的任务与复杂场景。

这一趋势，资本市场已经用真金白银给出了判断。观察近期的几笔大规模融资不难发现，资金正密集涌入那些专注于打造机器人“通用大脑”或基础模型的初创公司。表面上是投资机器人领域，实质上争夺的可能是下一代“机器人操作系统”或“通用物理智能基础模型”的生态入口与标准制定权。

由此可见，以 MotuBrain 为代表的、追求“世界预测”与“行动生成”相统一的技术架构，正处在这场关键卡位战的核心地带。至于 MotuBrain 背后究竟是哪支顶尖团队，其后续又将带来哪些突破，这个悬念或许不会持续太久。

来源:https://www.163.com/dy/article/KR2Q2M3R0511AQHO.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：荣耀机器人半马跑进前六方飞解读技术积累如何水到渠成下一篇：萤石AI随身拍Pika发布前后双4K摄像头智能拍摄