首页 游戏 软件 资讯 排行榜 专题
首页
AI
具身智能两大世界第一揭秘 行业巨头探寻其真实身份

具身智能两大世界第一揭秘 行业巨头探寻其真实身份

热心网友
59
转载
2026-05-18

近期,世界模型领域动态频频,竞争日趋白热化。

李飞飞教授创立的具身智能公司 World Labs 高调发布了「Spark 2.0」模型;几乎同时,阿里巴巴也推出了自家的世界模型「快乐生蚝」。此外,Physical Intelligence 公司发布了新模型 π 0.7,重点强调了其在未见任务上的组合泛化能力以及跨机器人平台的迁移特性。

这一系列密集动作传递出一个明确信号:行业竞争的焦点,正从单一的“执行特定动作”能力,转向更为核心的挑战——谁能率先实现“预测物理世界”与“生成控制动作”在同一个模型内的统一。

就在这个关键节点,一款名为 MotuBrain 的神秘世界模型,悄然登上了两项国际权威基准测试的榜首,且未公开任何所属机构信息。

若仅在某一个榜单夺魁或许不足为奇,但 MotuBrain 同时征服的两个榜单,恰恰代表了当前行业探索的两个核心方向:其一是评估世界模型“是否真正理解并能预测现实世界动态”的 WorldArena 基准;其二是衡量机器人任务执行与泛化能力的 RoboTwin2.0 基准。一个侧重世界预测,一个侧重行动执行,两者的结合,正好对应了业界亟待攻克的统一智能体难题。

双榜夺冠,MotuBrain 的优势何在?

在 WorldArena 基准测试中,MotuBrain 以 63.77 的综合 EWM 分数位列第一。其表现超越了高德的 ABot、极佳的 GigaWorld-1 等知名模型,并在运动质量、流畅度评分、运动平滑性等多个关键评估维度上全面领先。

图片来源:https://huggingface.co/spaces/WorldArena/WorldArena

而在 RoboTwin2.0 基准中,MotuBrain 在 Clean(清洁)和 Randomized(随机化)两种测试场景下,分别取得了 95.8 和 96.1 的高分,同样排名第一。它是该榜单上唯一在随机环境下平均分超过 95 的模型,在大多数具体任务中的成功率也达到或接近 100%。相较于高德 ABot、蚂蚁灵波 LingBot、JEPA-VLA、pi0.5 等模型,MotuBrain 在 RoboTwin 测试中展现了统治级的性能。

正是这种在两大不同维度基准上同时登顶的表现,让这款来历不明的模型备受关注。

目前,网络上关于 MotuBrain 的公开信息极少。不过,人们发现了一个本月刚刚注册的 X(原 Twitter)账号,这不禁让人联想到此前被阿里认领的“欢乐马”(后续也开通了 X 账号)。这款神秘的世界模型,是否也出自国内某家大厂之手?

为何 MotuBrain 的双料冠军意义重大?

WorldArena 和 RoboTwin 基准测试考察的是两种不同但互补的能力。

WorldArena 主要评估世界模型的本质能力,包括模型对物理运动规律的理解、对时间序列中未来状态变化的准确预测推演,以及对环境状态变化的认知水平。这本质上是在测试模型“预测世界”的物理常识与推理能力。

RoboTwin 则更侧重于评估行动模型或策略模型,例如模型能否在多种任务和环境下稳定、精确地执行动作指令,能否泛化到未经训练的新场景,以及是否具备完成复杂长周期操作序列的能力。这测试的是模型“在世界中行动”的规划与控制能力。

我们可以用人类驾驶来类比。一位熟练的司机能在复杂路况下安全行驶,依靠的不仅是条件反射式的操作,更是对前方动态的持续预判:前车是否会急刹?行人是否会突然闯入?这种将环境预测与即时行动决策无缝结合的能力,正是高级智能的体现。

然而,现有的多数机器人或具身智能系统,往往缺乏这种统一性。它们要么擅长感知和理解环境,但无法生成可靠的动作序列;要么能执行预设动作,却对环境变化缺乏预测和应变能力。这种“感知”与“行动”的割裂,导致系统在脱离训练过的固定场景后,性能极易大幅下降。

近年来,这两个方向的研究虽并行发展,但大多处于割裂状态。专注于视频生成与世界模型的团队,主要研究如何逼真地模拟物理世界;而专注于机器人策略与视觉语言动作模型的团队,则着力于提升任务执行的可靠性。真正尝试将二者深度统一的工作并不多见,能取得稳定优异成果的更是凤毛麟角。

MotuBrain 能够在两类基准上同时取得顶尖成绩,至少在基准测试层面证明了一件事:将“世界预测”与“行动生成”统一在同一个模型架构内,这条技术路线是可行且具有巨大潜力的。

幕后团队是谁?可能采用了何种技术路线?

目前关于 MotuBrain 的公开技术细节极少,但从其双榜夺冠的成绩结构分析,它很可能既不是传统的视频预测模型,也不是单纯的视觉语言动作模型或策略模型。

回顾过去一年,行业内在世界模型和行动模型的探索上,形成了若干条有代表性的技术路径。

有的路线强调构建统一的世界模型,通过对视觉、语言、视频与动作数据进行联合建模,融合视频预测、VLA、世界模型等多种能力,旨在实现对外部环境的统一感知、规划、预测与执行,并具备跨任务泛化能力。例如去年12月发布的 Motus 模型便是这一方向的代表。

有的路线则倾向于“先想象,再行动”的范式,例如今年一月底发布的 Lingbot-VA,其思路是先利用视频预测模型生成未来的环境状态变化,再基于此预测结果来指导机器人的动作决策,尝试将两个过程融合。

还有一些研究走的是“同步推演未来状态并生成动作”的路线,即世界行动模型,它要求模型能一边推演环境的下一步变化,一边实时生成相应的控制指令,例如英伟达在二月初发布的 DreamZero 便属于此类。

从 MotuBrain 的表现来看,它很可能走的是偏向“世界行动模型”的路线,兼具了对环境动态进行预测推演的世界建模能力,以及在复杂任务中生成可靠动作序列的行动能力。这正好解释了它为何能同时在考察“世界理解”和“动作执行”的两类基准测试中拔得头筹。

总结与展望

如果将一台机器人进行拆解,可以将其“躯干与四肢”视为硬件部分,而“决策与控制中枢”则是软件与算法部分,即机器人的“大脑”。

过去几年,机器人硬件的进步有目共睹:运动控制更加精准,传感器日益丰富多元,制造成本持续下降。然而,真正制约机器人实现大规模普及和应用的关键瓶颈,恰恰在于指挥其行动的“大脑”的智能水平。

当前的机器人系统,本质上大多仍是“为特定任务训练的专用程序”。一旦更换任务场景、操作对象或指令形式,系统性能就可能急剧下降甚至完全失效。这归根结底是通用智能能力不足的问题。

具身智能的终极目标,是构建一个通用的、统一的智能模型。这个模型既能深刻理解物理世界的运作规律并预测其变化,又能根据这种理解生成适应性的、可靠的动作序列,从而能够灵活应对各种未知的任务与复杂场景。

这一趋势,资本市场已经用真金白银给出了判断。观察近期的几笔大规模融资不难发现,资金正密集涌入那些专注于打造机器人“通用大脑”或基础模型的初创公司。表面上是投资机器人领域,实质上争夺的可能是下一代“机器人操作系统”或“通用物理智能基础模型”的生态入口与标准制定权。

由此可见,以 MotuBrain 为代表的、追求“世界预测”与“行动生成”相统一的技术架构,正处在这场关键卡位战的核心地带。至于 MotuBrain 背后究竟是哪支顶尖团队,其后续又将带来哪些突破,这个悬念或许不会持续太久。

来源:https://www.163.com/dy/article/KR2Q2M3R0511AQHO.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

美团小黄蜂机器人落地重庆机场 外卖10分钟直达登机口
业界动态
美团小黄蜂机器人落地重庆机场 外卖10分钟直达登机口

4月29日,美团旗下“小黄蜂”室内外智能配送机器人正式进驻重庆江北国际机场T3航站楼,这一消息在科技与出行领域引发广泛关注。此次落地标志着该款机器人首次在西南地区大型航空枢纽实现运营,意味着智能配送服务正深度渗透至高流量、高标准的交通枢纽场景。 即日起,旅客在江北机场候机时将体验到全新升级的服务。通

热心网友
05.17
机器人外呼系统每月费用解析与报价指南
业界动态
机器人外呼系统每月费用解析与报价指南

机器人外呼系统一个月的费用究竟是多少?这是许多企业在考虑部署AI智能呼叫时,首要关注的核心问题。毫无疑问,将人工智能技术融入外呼体系,能够实现高效率的客户触达、智能化的呼叫管理,并快速覆盖更广泛的目标人群,其技术优势与商业价值十分显著。然而,面对市场上多样化的报价方案与计费模式,不少决策者难免感到困

热心网友
05.17
DNF男机械师刷图连招技能一键设置方案
游戏攻略
DNF男机械师刷图连招技能一键设置方案

千海天版本全新推出的一键连招功能,为众多职业带来了操作体验的革新。对于男机械师这类依赖快速倾泻大量技能的职业而言,此系统堪称如虎添翼。它能帮助你流畅衔接技能、有效取消技能前后摇,从而将高额爆发伤害压缩在更短的时间内。那么,如何为DNF男机械师设置一键连招,才能实现伤害最大化呢?本文将提供一套经过实战

热心网友
05.17
2025年RPA机器人软件选型指南与选购攻略
业界动态
2025年RPA机器人软件选型指南与选购攻略

在数字化转型与人工智能技术深度融合的今天,降本增效已成为企业生存与发展的关键命题。传统的RPA(机器人流程自动化)技术早已超越简单重复劳动的替代阶段,通过与AI结合,正深入企业核心业务流程,成为驱动运营效率提升的战略性引擎。步入2025年,随着大模型技术的广泛应用,RPA实现了从“规则执行者”到“智

热心网友
05.17
实在智能RPA如何实现多源数据融合驱动机器人高效运行
业界动态
实在智能RPA如何实现多源数据融合驱动机器人高效运行

在数据驱动的时代,企业面临的挑战往往不是数据太少,而是数据太多、太杂。来自内部系统、外部平台、传感器、文档等不同源头的数据,格式各异、结构不一,如同散落各处的拼图碎片。如何将这些“多源异构”的数据有效整合,提取出真正有价值的信息,成为挖掘数据金矿的关键第一步。而在这个过程中,自动化技术的引入,尤其是

热心网友
05.17

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

《Zero Parades: For Dead Spies》游戏评分与媒体评价汇总
游戏攻略
《Zero Parades: For Dead Spies》游戏评分与媒体评价汇总

《Zero Parades: For Dead Spies》的媒体评测已经解禁,结果相当亮眼。这款被许多人视为《极乐迪斯科》精神续作的作品,在OpenCritic上拿到了86分的媒体均分,在Metacritic上也有83分。游戏将于5月21日正式登陆PC平台,看来2026年的必玩叙事RPG名单上,又

热心网友
05.18
Excel多级分类汇总一句话快速完成
AI
Excel多级分类汇总一句话快速完成

目录 你是否也遇到过这些问题 处理效果 前置准备 超简单AI自动化解决方案 第1步:准备好你的原始数据 第2步:针对指定的文件下达指令 第3步:验收 还能解决这些同类问题 指令为什么这么有用? 更多场景直接抄作业 销售数据三级汇总 成本数据多级汇总 库存数据汇总 员工薪资汇总 常见问题答疑 核心价值

热心网友
05.18
Kimi K2.6 智能体功能深度解析与体验评测
AI
Kimi K2.6 智能体功能深度解析与体验评测

AI Agent 的发展,正迎来一个关键的转折点,从概念验证迈向真正的生产力交付。 想象一下,当一个 AI 智能体能够在无需人工介入的情况下,独立完成一个复杂项目的全流程,并将成功经验固化为可随时调用的“技能”——这是否标志着 AI 在职场中的角色,已经从辅助工具演变为自主的生产力单元? 随着 Op

热心网友
05.18
苹果WWDC26前瞻 iOS27新Siri界面交互升级预测
AI
苹果WWDC26前瞻 iOS27新Siri界面交互升级预测

彭博社的马克・古尔曼在最新报道中透露了一个有趣的发现:苹果为WWDC 26发布的宣传海报,其设计细节可能暗藏玄机,指向了即将在iOS 27中亮相的全新Siri交互界面。 根据古尔曼的分析,新版Siri的核心变化在于与灵动岛的深度融合。唤醒时,它将不再以传统的全屏或底部卡片形式出现,而是会以一个扩展的

热心网友
05.18
GitHub刷星乱象调查 AI项目成虚假评分重灾区
AI
GitHub刷星乱象调查 AI项目成虚假评分重灾区

GitHub 的 Star 数量还值得信赖吗?真相可能比你想象的更严峻。 开源社区中“购买 Star”的现象早已不是秘密,其便捷程度甚至超过点外卖,单价低廉且支持批量折扣。然而,卡内基梅隆大学(CMU)一项被 ICSE 2026 顶会收录的最新研究,首次系统性地揭示了这场“造假生意”的惊人规模:Gi

热心网友
05.18