首页 游戏 软件 资讯 排行榜 专题
首页
AI
中国具身智能全球领先十万小时数据突破PI与英伟达技术壁垒

中国具身智能全球领先十万小时数据突破PI与英伟达技术壁垒

热心网友
93
转载
2026-05-19


当前,具身智能领域正面临一个关键瓶颈:过度依赖真机遥操作数据来训练机器人模型,这条技术路径的局限性日益凸显。

成本高昂是首要难题——采集一小时的遥操作数据往往需要数百元投入,并且必须搭建专业的动作捕捉环境。采集效率则是另一大硬伤:操作员通过屏幕遥控机械臂,其数据采集速度远跟不上真实生产线的作业节拍。这意味着,单纯依靠遥操作数据,已难以同时满足大规模模型训练与快速产业落地的双重需求。

那么,是否存在一条更优的路径?

人类自身就在真实场景中持续进行着海量、高精度的操作。一个直观的思路是:直接采集人类作业数据,并将其转化为机器人可学习的知识。但实现这一目标至少面临两大挑战:第一,人手与机械手的物理结构存在根本差异,人类动作无法直接映射给机器人。第二,仅凭第一视角视频来还原人手动作,其精度通常不足以支撑高精细度的操作任务。

近期,灵初智能提出了创新的解决方案。他们利用超过10万小时的人类操作数据,构建了一套名为PSI的机器人学习框架。该框架的核心是两个协同工作的大模型:策略模型Psi-R2负责学习“任务该如何执行”,世界模型Psi-W0则负责推演“如果采用不同动作会发生什么”。两者配合,能够将人类操作数据逐步转化为机器人可直接执行的精准动作序列。

除了这套方法论,灵初智能还展示了其积累的近10万小时人类操作数据,并开源了一个包含1000小时数据的机器人学习数据集。

一、10万小时人类数据:成为机器人预训练的核心原料

这条技术路径的起点非常明确:将人类操作数据直接作为机器人预训练的主要原料。根据披露,Psi-R2的预训练同时融合了真机数据和人类数据。其中,真机数据来自灵初自有的Psi-MobiDex数据集,共计5417小时;人类数据总规模高达95472小时,覆盖了294种不同场景、4821种任务类型和1382种物体。

这背后是基于现实的深刻洞察。具身智能领域长期面临“存量数据”匮乏的困境——它不像自动驾驶拥有多年的路测数据积累,也不像大语言模型可以从互联网海量文本中获取语料。机器人要学习技能,无法从现成的语料库中提取,只能依靠现实世界一点一滴地“喂养”。

真机遥操作曾是一条相对直接的路径,但随着模型规模扩大和任务复杂度提升,这种数据供给方式开始显得力不从心。因此,人类数据的价值被重新评估和重视。其吸引力在于两点:一是来源天然丰富,人类的生产活动本身就在持续产生数据;二是数据更贴近真实作业流程,天然包含了任务目标、精细动作和实际节拍信息。简而言之,若想让机器人学会高效工作,最密集、最成熟的示范样本,本就存在于人类的双手之上。

关键问题在于,如何将人类数据与真机数据有效地“融合”在一起进行训练。灵初尝试过一系列复杂方案,如图像修复、关键点辅助损失、跨空间特征对齐等,这些方法在小数据量时有效。然而,当数据规模急剧扩大后,这些精巧的设计反而成为瓶颈。原因在于,这些方法的本质是试图让人手和机械手在视觉或特征空间上看起来一致,但两者的物理规律本就不同。对于手机装配这类精密操作,强行对齐反而会引入误差。

最终被验证有效的,是一条更为朴素的路线:原始数据输入,原始数据输出。在工程实现上,即通过运动学公式将人手关节数据转换为机械手关节数据,而图像数据则原封不动地直接输入模型,尽可能减少人为干预。从结果来看,这条路线目前是可行的。据披露,Psi-R2完成预训练后,仅需少于100条轨迹的真机数据进行微调,就能胜任手机装配、工业包装、纸盒折叠等长时序、高精度的复杂任务。

当然,仅有海量数据还不够。如何让机器人高效地“消化”这些数据?这就引出了这套框架的真正核心——世界模型驱动的强化学习。

二、Psi-W0:补全“如果失败会怎样”的推演能力

单独看Psi-R2,这套方法存在一个天然缺陷:它擅长从成功轨迹中学习,但自身难以生成反事实推理能力。这正是世界模型需要发挥作用的地方。

Psi-W0接收图像、语言指令和机器人动作轨迹,输出对未来场景的视频预测。它与Psi-R2最大的区别在于:动作在这里不仅是预测的结果,更是参与条件生成的关键输入。简而言之,它是一个以动作为条件的视频预测世界模型。

更通俗地比喻:Psi-R2像一个“会解题的学生”,而Psi-W0则像一套能够重新推演整个解题过程的模拟系统。策略模型知道哪些动作曾经成功,却不知道如果动作稍有偏差、顺序错乱或接触时机延迟会导致什么后果。然而,无论是强化学习、策略评估,还是人类动作向机器人动作的真正迁移,都离不开这部分关于“失败”或“偏差”的信息。

为了让模型学会理解失败,Psi-W0在训练中特意加入了约30%的失败样本,这些数据来自专项采集、常规采集以及模型推理过程。这样一来,它不仅认识“成功是什么样子”,也开始理解“失败会如何发生”。

在整个系统中,Psi-W0承担着两层核心作用。第一层是评估。数据规模再大,也不等于知识自动被模型掌握。策略模型是否真正学会了“人类是如何完成任务的”?需要一个能够推演轨迹、判断结果的系统来检验,Psi-W0就扮演这个角色。

第二层作用更为关键:它直接参与将人类数据转化为机器人可执行数据的过程。以抓取任务为例,人类抓取苹果的动作映射到机器人身上,很可能因为细微的位姿偏差而导致抓取失败。对于高精细任务,这种偏差往往是致命的。传统做法需要将场景和物体重建到仿真器中,再进行强化学习微调——流程繁重、成本高,还需面对仿真与现实的差异问题。

灵初智能的思路,是将这个过程转移到世界模型内部完成。首先让Psi-R2学习一条人类数据轨迹,然后将这条轨迹交给Psi-W0进行推演,在机器人视觉和机器人动力学的条件下观察动作结果;如果结果不理想,就继续通过强化学习调整动作,直到这条轨迹更贴近机器人真正能执行的状态。整体来看,这相当于为模型提供了一个“在梦境中试错”的空间。成功的轨迹可以回流到训练集中,成为新的有效数据;失败的轨迹同样具有价值,它们帮助模型识别失败的边界,推动世界模型的预测越来越准确。所谓的数据飞轮,正是这样转动起来的。

这套方法很快在权威评测中得到了验证。在美国艾伦人工智能研究所发起的MolmoSpaces榜单中,灵初智能的Psi-R2在总榜中位列第一,整体表现超越了具身大模型标杆π以及英伟达GEAR等主流方案,并与其他基线模型拉开了显著差距。MolmoSpaces是当前具身智能领域少数与真实世界评测具有强相关性的公开基准之一,吸引了包括NVIDIA、PI在内的全球顶尖团队参与。


三、数据价值的真正分水岭:信噪比、精度与节拍

如果说双模型架构回答了“如何学”的问题,那么本次发布中另一个更值得深思的问题是:“什么样的数据才值得学习”。灵初智能给出了一个明确的判断:决定数据价值的核心因素,不在于数量本身,而在于数据的信噪比。低信噪比的数据不仅学习效率低下,甚至会拖累整体训练效果。

进一步拆解:在数据分布上,优先级是任务多样性 > 物体多样性 >> 场景多样性;在感知模态上,优先级是精准3D位姿 >> 触觉模态 > 2D图像特征。这组结论具有强烈的指向性,它表明具身智能模型真正稀缺的,是更丰富的任务类型、更扎实的物体交互经验以及更高精度的动作轨迹。毕竟对于操作任务而言,背景信息很多时候只是辅助,模型真正需要学习的是物体特性、动作序列以及接触关系。

在这几个维度中,3D位姿精度尤为关键。当前常见的人类数据采集方式中,纯第一视角视频成本低、易规模化,但精度始终是短板。根据灵初披露的方案,他们通过端到端的第一视角手部检测模型预测MANO参数和位姿,再结合DPVO和Any4D技术,将轨迹统一到世界坐标系。即便如此,仅靠纯第一视角视频恢复的人手操作轨迹,误差仍在毫米级;只有引入自研的外骨骼手套进行数据采集,才能将误差压缩到亚毫米级。这也是为什么精细装配场景对数据精度格外敏感。手机装配、纸盒插接、精密抓取这类任务,往往不是“差不多”就能完成的,误差只要稍微放大,动作就会彻底失效。


除了位姿精度,另一条关键线索是触觉信息。近年来,触觉在机器人通用模型中一直较为稀缺。因为机器人端的触觉传感器本身难以稳定部署,不同硬件厂商的数据格式也不兼容,想将其做成可规模化复用的数据源非常困难。但人类侧的触觉采集条件则宽松得多,设备更轻便,成本也更低。

灵初此次将触觉视为一条关键线索。人与机器人外形不同、关节不同、动力学不同,但“是否发生接触”、“接触发生在何时”这类信号,本身就接近于一种跨本体的通用语言。考虑到现实中大多数机器人并没有成熟可用的触觉通道,灵初采用了掩码训练(Mask Training)的方式:在输入真机数据时屏蔽触觉通道,让模型去预测触觉信号,而不是直接将其作为观测输入。据披露,引入触觉信息后,Psi-W0的表现有明显提升,模型对机器人与物体交互过程的预判能力也更强。

更进一步,真正将实验室研究与工厂应用区分开来的,是作业节拍。这也是人类数据被重新重视的另一个深层原因。真实工厂中的标准作业程序,往往是经过长期打磨的最优结果,每多一个冗余动作、每慢一个节拍,都可能在规模化生产中被成本放大。假设机械臂的物理运动速度上限是1200单位,遥操作往往只能达到800甚至更低;而人类在本职工作中完成操作时,其节拍可以逼近机械臂的运动极限。换句话说,人类数据的价值不仅在于采集成本更低,也在于它更贴近真实的SOP(标准作业程序),更贴近真实的作业速度。对于旨在走向实际落地的具身智能模型而言,这类数据天然更符合产业需求。

四、1000小时开源数据集:背后是一条更完整的训练路径

灵初此次还发布了一套开源数据集。在其总规模近10万小时的人类操作数据中,率先开源了其中的1000小时。

不要小看这1000小时,其门道藏在数据结构中。数据分为两类:一类是高精度数据,经过处理后其轨迹能与真机执行高度对齐,回放性极强;另一类则主打大规模扩展,在可控精度下优先扩大数据量和泛化空间。一类保障操作精度,一类拓展预训练边界——两种数据置于同一套体系内,训练框架才真正形成了完整闭环。

顺着这个思路深入,本次发布的核心看点,早已超越了模型名称、榜单排名或开源数据本身。灵初真正展示的,是一条完整的机器人训练路径:当真机遥操作数据无法支撑大规模预训练时,就将人类数据注入训练的主干道。但仅有人类数据远远不够——需要策略模型来承接知识,需要世界模型来进行反事实推演和强化学习调优,还需要一套高效的转换机制,将人类的动作稳健地转化为机器人的动作。


显然,灵初智能瞄准的,不止是一次榜单的领先位置。它正在押注的,是下一阶段具身智能训练框架的标准之争。

来源:https://www.163.com/dy/article/KQAB6VVR0511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

高德世界模型基线开源 CVPR 2026挑战赛启动
AI
高德世界模型基线开源 CVPR 2026挑战赛启动

过去两年,从Sora到Veo,再到Cosmos,视频生成模型在“视觉逼真度”这条赛道上飞速发展,生成的画面已足以以假乱真。然而,一个根本性问题始终存在:这些模型真的“理解”了我们所处的物理世界吗?答案很可能是否定的。 事实上,一旦要求这些模型生成涉及机器人操作的视频,诸如“机械臂穿模、物体凭空消失、

热心网友
05.19
中国具身智能全球领先十万小时数据突破PI与英伟达技术壁垒
AI
中国具身智能全球领先十万小时数据突破PI与英伟达技术壁垒

当前,具身智能领域正面临一个关键瓶颈:过度依赖真机遥操作数据来训练机器人模型,这条技术路径的局限性日益凸显。 成本高昂是首要难题——采集一小时的遥操作数据往往需要数百元投入,并且必须搭建专业的动作捕捉环境。采集效率则是另一大硬伤:操作员通过屏幕遥控机械臂,其数据采集速度远跟不上真实生产线的作业节拍。

热心网友
05.19
中国具身智能模型登顶全球榜首开启机器人数据驱动新纪元
AI
中国具身智能模型登顶全球榜首开启机器人数据驱动新纪元

具身智能领域,最近被一群年轻人“刷新”了认知。 当行业还在仿真与现实迁移的课题中探索时,一支由00后主导的团队——灵初智能,选择了一条更直接的路径:用近十万小时的人类真实操作数据,为机器人“喂食”。这个数据量级,即便放在全球视野下,也堪称领先。 目前,业界常用的人类操作数据集多在几千至几万小时,即便

热心网友
05.19
智元远征A3人形机器人发布:续航10小时并支持空中漫步
AI
智元远征A3人形机器人发布:续航10小时并支持空中漫步

人形机器人赛道迎来一位实力强劲的新成员。4月13日,智元机器人正式推出其全新一代全尺寸人形机器人——远征A3。与以往侧重工业或服务领域的机器人不同,这款产品精准定位于一个充满想象力的场景,并打出了“为舞台而生”的鲜明标签。 那么,这台旨在征服舞台、点亮表演的机器人,究竟在哪些方面实现了突破?它又如何

热心网友
05.19
宇树科技对手IPO估值25亿专业机器狗市场前景分析
业界动态
宇树科技对手IPO估值25亿专业机器狗市场前景分析

杭州云深处科技科创板IPO申请获受理,拟募资25 03亿元。公司专注四足机器人B端工业应用,在电力巡检等领域市场份额领先,2025年实现首次盈利。与同行宇树科技侧重消费市场不同,云深处坚持深耕行业场景,其未来发展聚焦算法研发与产业化拓展。

热心网友
05.19

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

算力时代电力价值重估 能源如何支撑数字经济
AI
算力时代电力价值重估 能源如何支撑数字经济

近日,国家能源局联合发改委、工信部、国家数据局正式印发《关于促进人工智能与能源双向赋能的行动方案》。这份重磅文件的核心思路非常清晰:一方面,以坚实的能源基础支撑人工智能(AI)的快速发展;另一方面,利用AI技术赋能能源行业转型升级。其核心目标是推动能源、算力、应用场景、数据与算法模型五大关键要素深度

热心网友
05.20
智谱清影与Runway Gen3视频生成模型对比评测
AI
智谱清影与Runway Gen3视频生成模型对比评测

在挑选文生视频工具时,若您正在智谱清影与Runway Gen-3之间权衡,那么了解两者在生成效果上的具体差异,将有助于您做出更明智的选择。本文将从画质清晰度、细节纹理、运动自然度与视频连贯性等核心维度,通过实测对比为您详细解析。 一、画质与分辨率表现 首先对比硬性指标。智谱清影基于CogVideoX

热心网友
05.20
通义万象制作数据可视化科技背景的实用教程
AI
通义万象制作数据可视化科技背景的实用教程

想用通义万相生成一张科技感十足的数据可视化背景,但出来的画面总觉得少了点“内味儿”?数字界面、粒子流、电路纹理这些关键元素一个不见,画面平平无奇?这通常不是工具的问题,而是提示词没有精准锚定科技可视化的核心要素,或者模型参数没调到最佳状态。别急,下面这几种方法,能帮你把想法精准地“翻译”成画面。 一

热心网友
05.20
Vidu视频慢动作与快进效果制作教程
AI
Vidu视频慢动作与快进效果制作教程

想要在Vidu生成的视频中实现流畅的慢动作或快进效果?虽然模型界面没有提供直接调整播放速度的滑块,但通过巧妙的提示词设计、利用内置功能,或结合后期处理工具,你完全可以精准掌控视频的节奏与时间感。本文将为你详细解析四种实用方法,从生成前到生成后,全方位满足你的创作需求。 一、通过精准提示词引导运动节奏

热心网友
05.20
海螺AI学术论文查重降重功能实测与效果分析
AI
海螺AI学术论文查重降重功能实测与效果分析

当您使用海螺AI生成的英文论文在提交查重时遭遇高重复率或AIGC检测异常,请不要急于归咎于工具本身。核心原因在于,尽管AI生成的文本格式标准、语法地道,但其语言模式和常见短语组合,并未针对知网、维普、万方等中文查重数据库的语义比对逻辑进行专门优化。换言之,机器认为流畅自然的表达,在查重系统的算法看来

热心网友
05.20