首页 游戏 软件 资讯 排行榜 专题
首页
AI
灵初智能PsiR2模型凭海量数据与规模优势登顶MolmoSpaces评测

灵初智能PsiR2模型凭海量数据与规模优势登顶MolmoSpaces评测

热心网友
58
转载
2026-05-20

具身智能的叙事,正在翻开新的一页。

一个越来越清晰的共识正在形成:仅仅依赖真机遥操作采集的数据,恐怕难以支撑机器人走向大规模的实际应用场景。

背后的逻辑不难理解。真机数据成本高昂、采集缓慢,其动作节拍也往往与真实作业场景存在差距。实验室里跑得通的演示,一旦放到工厂、仓库或零售现场,就会面临速度、成本和稳定性的严苛拷问。决定下一阶段竞争格局的,已经不只是“谁能做出一个惊艳的演示”,而是“谁能率先将人类在真实世界中的操作经验,规模化地转化为机器人可学习、可迭代、可部署的能力”。

近期,灵初智能发布了一系列大模型、数据集及合作计划,包括策略模型Psi-R2、世界模型Psi-W0,以及总规模近10万小时的人类操作数据。其核心意图非常明确:当真机数据不再是唯一答案时,机器人能力的规模化扩展(scaling)还能依靠什么?

表面上看,这是一场新品发布;但深入一层,这更像是一次关于方法论的宣言:当具身智能领域缺乏互联网式的数据红利时,下一步究竟该靠什么继续前进。

当真机数据不再够用:具身智能为何转向“人类数据”

首先,我们来看看这次发布的具体内容。

在模型层面,发布了策略模型Psi-R2和世界模型Psi-W0。在数据层面,则推出了总规模近10万小时的人类操作数据,并首批开源了其中1000小时的数据。这1000小时数据,堪称当前行业内最大规模的开源人类手部操作全模态数据集之一。

进一步拆解,这套数据体系包含5417小时来自灵初自研MobiDex数采平台的真机数据,以及高达95472小时、覆盖多场景、多任务、多物体的人类操作数据。这也是业内少数明确将十万小时量级人类数据系统性用于机器人预训练的模型方案。

那么,为什么是“人类数据”?

根本原因在于,具身智能与大语言模型、自动驾驶不同。它没有互联网上海量的现成数据可供抓取,也很难在商业运行中自然沉淀出足够规模的高质量训练样本。“数据从哪里来”已经成为这个行业最核心的瓶颈之一。

而人类每天都在真实环境中,用双手完成高频、连续且精细的操作。这些数据天然贴近机器人未来需要面对的工作世界——它们源于真实任务,带着真实的节奏和操作细节。从落地角度看,这类数据的价值远不止是“多了一个数据源”那么简单。

然而,人类数据的采集并非“越多越好”那么简单。

它面临的首要难点是“具身鸿沟”(embodiment gap),即人手与机械手在运动学和动力学上的天然差异。其次是精度问题。许多人类操作数据来源于第一视角视频,其轨迹恢复精度往往只在厘米级;一旦涉及手机装配这类亚毫米级精度的任务,这种误差就会被急剧放大。

为了解决这些问题,灵初自研了外骨骼触觉手套和高精度感知硬件,将人手3D轨迹的采集精度推向了更高水平。另一部分裸手数据,虽然精度相对较低,但规模更大,主要承担提供模型泛化能力的职责。

换句话说,灵初并非简单地将“人类数据”视为替代真机数据的廉价选项,而是在尝试构建一套分层的数据体系:高精度数据负责提升任务执行的上限,大规模数据负责拓宽模型的泛化能力,两者共同为机器人训练构筑新的数据底座。

系统协同:比单个模型更关键

值得注意的是,灵初最终选择的技术路径并非特别“花哨”的对齐方式。

他们尝试过图像修补、关键点辅助损失函数、特征空间对齐等方法,试图将人类数据修饰得更接近机器人数据。但最终发现,当数据量较小时,这些方法有所帮助;一旦数据量上来,它们反而会成为瓶颈。

原因并不复杂。这些方法本质上都在努力模糊人与机器人的差异,但在长周期、高精度、接触密集的任务中,这种差异恰恰不能被轻易抹平。任务越复杂、越精细,就越需要承认两种“具身”形式的真实不同。强行“抹平”差异,模型反而更容易在关键动作上出错。

因此,灵初选择了一条更朴素的路径:只进行必要的输入输出维度对齐,将人类关节通过运动学映射到机器人关节,图像数据尽量不做过多处理,直接将原始数据输入模型。他们对这条路径的总结也很直接:原始数据进,原始数据出。

在这套体系中,Psi-R2负责“先学会怎么做”。

它以图像和语言为输入,同时输出未来视频预测和机器人动作。这意味着它不仅学习下一步动作,还在同步学习“接下来世界会如何变化”。这套设计建立在预训练的视频生成模型之上,目标是将大规模人类数据中蕴含的任务知识,尽可能多地编码进策略模型。

经过大规模预训练后,Psi-R2仅需少于100条真机轨迹进行微调,就能完成手机装配、工业包装、叠纸盒等长周期、高精度的任务。

然而,只学习成功的动作示范是不够的。

因为成功示范只能告诉模型“应该怎么做”,却无法揭示“如果换一种做法,会在哪一步失败”。而这恰恰是强化学习最需要的关键信息。

这正是Psi-W0的用武之地。

它接收图像、语言和机器人动作轨迹,并预测未来视频。与Psi-R2相比,Psi-W0多了一项核心职责:建模失败、建模反事实、建模试错空间。为此,Psi-W0的训练数据中额外加入了约30%的失败数据。

换言之,Psi-W0不只是一个“会预测”的模型,它更像一个可用于评估和打磨策略的“训练场”。Psi-R2先从人类数据中学习任务知识,然后将生成的轨迹送入Psi-W0进行推演;随后,在机器人动力学约束下,通过强化学习进行小步修正,将“人类会做”的轨迹改造为“机器人也能做”的轨迹。优质的轨迹回流至训练集,失败的轨迹则帮助世界模型变得更精准,由此形成一个持续优化的数据飞轮。

这也是本次发布最值得关注的一点:真正发挥作用的,并非某个单一模型,而是Psi-R2、Psi-W0与强化学习三者构成的系统协同。

围绕人类数据,灵初也给出了一组对行业颇具参考价值的判断:对于数据分布而言,任务多样性 > 物体多样性 >> 场景多样性;对于模态价值而言,精准的3D位姿 > 触觉 > 2D图像特征。

翻译成更直白的话就是:背景环境是否足够复杂,未必是最重要的;真正决定模型能力上限的,是它见识过多少种任务、接触过多少种物体,以及它是否真正理解了物体接触与操作的物理细节。

正因如此,灵初将触觉视为一种跨越不同“具身”的“通用语言”。人手和机械手的结构可以不同,但“是否发生接触”、“接触是如何发生的”这类物理信号,在本质上是相通的。

从论文到现场:落地还要跨过部署关

如果说前面的部分解决了“技术上行不行”的问题,那么商业化真正关心的,始终是“这条路值不值得走”。

答案很明确:值得,而且必须走。

原因很简单。在实验室里,动作慢一点、路径绕一点,许多演示依然能够完成;但到了工厂、仓储和零售现场,节拍、成本和稳定性会重新定义一切。在实际作业中,一个动作多一步、一拍慢一点,最终都会反映在良品率和运营成本上。

从这个角度看,最具价值的数据,往往并非实验室里的遥操作演示,而是来自一线工人的真实作业数据。

一方面,人类数据的采集成本可以更低,已被压缩至传统真机遥操作方案的十分之一以下。另一方面,其动作节拍更真实,更贴近业务现场的标准作业程序(SOP)和速度要求。

工程侧的进展,则让这件事离实际落地又近了一步。

通过DiT Caching、Torch Compile、量化等一系列优化,单次推理时间已从2.2秒压缩到100毫秒以内。对于需要连续、灵巧、顺滑操作的任务而言,这已经不仅仅是“优化得不错”,而是能否真正进入现场部署的一道关键门槛。

外部基准测试的结果,也为这套方法提供了有力的佐证。

相关公开榜单页面显示,在MolmoSpaces Combined榜单中,且在不使用MolmoBot Data的分组条件下,Psi-R2以46.4的Oracle Success Rate排名第一,并覆盖了4个任务。

MolmoSpace由美国艾伦人工智能研究所发起,是全球具身智能领域的权威基准评测平台,NVIDIA、PI等全球顶尖团队均参与了本次评测。灵初Psi-R2在评测中超越了PI、DreamZero等国际知名模型,其表现显著优于其他基线模型,成功率大幅领先同类视觉语言动作模型产品,充分体现了企业自主研发路线的先进性与竞争力。

这个细节的价值,不只是“上榜”而已。更重要的是,它标志着这套方法正在进入一个公开、可比较的评价环境中接受检验。

将所有这些信息放在一起看,本次发布的重点并不仅仅是“又发布了一个模型”,也不只是“又开源了一批数据”。

它更像是在向外界传递一个清晰的判断:

第一,具身智能的瓶颈在于数据,而人类数据不是旁支末流,而是未来发展的主线之一。

第二,真正能将人类经验转化为机器人能力的,不是单个模型,而是由Psi-R2、Psi-W0和强化学习共同构成的协同系统。

第三,所有技术问题的终点都不是学术论文,而是实际落地:动作节拍、成本控制、推理速度、数据飞轮能否真正运转起来,才是最终的检验标准。

如果这套技术路线最终能够走通,那么此次开源的意义,就远不止是“放出一个模型,开放一批数据”那么简单。

它更像是在向行业宣告:具身智能真正的分水岭,或许已经不再是“谁先做出更惊艳的演示”,而是“谁能率先将人类数据、世界模型和强化学习连接成一条能够持续运转的增长曲线”。

从这个意义上说,这次发布想开启的,或许不只是一个新产品。

而是一个新的发展阶段。

来源:https://www.163.com/dy/article/KQBHVHGO0511AQHO.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

高德世界模型基线开源 CVPR 2026挑战赛启动
AI
高德世界模型基线开源 CVPR 2026挑战赛启动

过去两年,从Sora到Veo,再到Cosmos,视频生成模型在“视觉逼真度”这条赛道上飞速发展,生成的画面已足以以假乱真。然而,一个根本性问题始终存在:这些模型真的“理解”了我们所处的物理世界吗?答案很可能是否定的。 事实上,一旦要求这些模型生成涉及机器人操作的视频,诸如“机械臂穿模、物体凭空消失、

热心网友
05.19
中国具身智能全球领先十万小时数据突破PI与英伟达技术壁垒
AI
中国具身智能全球领先十万小时数据突破PI与英伟达技术壁垒

当前,具身智能领域正面临一个关键瓶颈:过度依赖真机遥操作数据来训练机器人模型,这条技术路径的局限性日益凸显。 成本高昂是首要难题——采集一小时的遥操作数据往往需要数百元投入,并且必须搭建专业的动作捕捉环境。采集效率则是另一大硬伤:操作员通过屏幕遥控机械臂,其数据采集速度远跟不上真实生产线的作业节拍。

热心网友
05.19
中国具身智能模型登顶全球榜首开启机器人数据驱动新纪元
AI
中国具身智能模型登顶全球榜首开启机器人数据驱动新纪元

具身智能领域,最近被一群年轻人“刷新”了认知。 当行业还在仿真与现实迁移的课题中探索时,一支由00后主导的团队——灵初智能,选择了一条更直接的路径:用近十万小时的人类真实操作数据,为机器人“喂食”。这个数据量级,即便放在全球视野下,也堪称领先。 目前,业界常用的人类操作数据集多在几千至几万小时,即便

热心网友
05.19
智元远征A3人形机器人发布:续航10小时并支持空中漫步
AI
智元远征A3人形机器人发布:续航10小时并支持空中漫步

人形机器人赛道迎来一位实力强劲的新成员。4月13日,智元机器人正式推出其全新一代全尺寸人形机器人——远征A3。与以往侧重工业或服务领域的机器人不同,这款产品精准定位于一个充满想象力的场景,并打出了“为舞台而生”的鲜明标签。 那么,这台旨在征服舞台、点亮表演的机器人,究竟在哪些方面实现了突破?它又如何

热心网友
05.19
宇树科技对手IPO估值25亿专业机器狗市场前景分析
业界动态
宇树科技对手IPO估值25亿专业机器狗市场前景分析

杭州云深处科技科创板IPO申请获受理,拟募资25 03亿元。公司专注四足机器人B端工业应用,在电力巡检等领域市场份额领先,2025年实现首次盈利。与同行宇树科技侧重消费市场不同,云深处坚持深耕行业场景,其未来发展聚焦算法研发与产业化拓展。

热心网友
05.19

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

算力时代电力价值重估 能源如何支撑数字经济
AI
算力时代电力价值重估 能源如何支撑数字经济

近日,国家能源局联合发改委、工信部、国家数据局正式印发《关于促进人工智能与能源双向赋能的行动方案》。这份重磅文件的核心思路非常清晰:一方面,以坚实的能源基础支撑人工智能(AI)的快速发展;另一方面,利用AI技术赋能能源行业转型升级。其核心目标是推动能源、算力、应用场景、数据与算法模型五大关键要素深度

热心网友
05.20
智谱清影与Runway Gen3视频生成模型对比评测
AI
智谱清影与Runway Gen3视频生成模型对比评测

在挑选文生视频工具时,若您正在智谱清影与Runway Gen-3之间权衡,那么了解两者在生成效果上的具体差异,将有助于您做出更明智的选择。本文将从画质清晰度、细节纹理、运动自然度与视频连贯性等核心维度,通过实测对比为您详细解析。 一、画质与分辨率表现 首先对比硬性指标。智谱清影基于CogVideoX

热心网友
05.20
通义万象制作数据可视化科技背景的实用教程
AI
通义万象制作数据可视化科技背景的实用教程

想用通义万相生成一张科技感十足的数据可视化背景,但出来的画面总觉得少了点“内味儿”?数字界面、粒子流、电路纹理这些关键元素一个不见,画面平平无奇?这通常不是工具的问题,而是提示词没有精准锚定科技可视化的核心要素,或者模型参数没调到最佳状态。别急,下面这几种方法,能帮你把想法精准地“翻译”成画面。 一

热心网友
05.20
Vidu视频慢动作与快进效果制作教程
AI
Vidu视频慢动作与快进效果制作教程

想要在Vidu生成的视频中实现流畅的慢动作或快进效果?虽然模型界面没有提供直接调整播放速度的滑块,但通过巧妙的提示词设计、利用内置功能,或结合后期处理工具,你完全可以精准掌控视频的节奏与时间感。本文将为你详细解析四种实用方法,从生成前到生成后,全方位满足你的创作需求。 一、通过精准提示词引导运动节奏

热心网友
05.20
海螺AI学术论文查重降重功能实测与效果分析
AI
海螺AI学术论文查重降重功能实测与效果分析

当您使用海螺AI生成的英文论文在提交查重时遭遇高重复率或AIGC检测异常,请不要急于归咎于工具本身。核心原因在于,尽管AI生成的文本格式标准、语法地道,但其语言模式和常见短语组合,并未针对知网、维普、万方等中文查重数据库的语义比对逻辑进行专门优化。换言之,机器认为流畅自然的表达,在查重系统的算法看来

热心网友
05.20