中国具身智能全球领先十万小时数据突破PI与英伟达技术壁垒

首页

热心网友

转载

2026-05-19

当前，具身智能领域正面临一个关键瓶颈：过度依赖真机遥操作数据来训练机器人模型，这条技术路径的局限性日益凸显。

成本高昂是首要难题——采集一小时的遥操作数据往往需要数百元投入，并且必须搭建专业的动作捕捉环境。采集效率则是另一大硬伤：操作员通过屏幕遥控机械臂，其数据采集速度远跟不上真实生产线的作业节拍。这意味着，单纯依靠遥操作数据，已难以同时满足大规模模型训练与快速产业落地的双重需求。

那么，是否存在一条更优的路径？

人类自身就在真实场景中持续进行着海量、高精度的操作。一个直观的思路是：直接采集人类作业数据，并将其转化为机器人可学习的知识。但实现这一目标至少面临两大挑战：第一，人手与机械手的物理结构存在根本差异，人类动作无法直接映射给机器人。第二，仅凭第一视角视频来还原人手动作，其精度通常不足以支撑高精细度的操作任务。

近期，灵初智能提出了创新的解决方案。他们利用超过10万小时的人类操作数据，构建了一套名为PSI的机器人学习框架。该框架的核心是两个协同工作的大模型：策略模型Psi-R2负责学习“任务该如何执行”，世界模型Psi-W0则负责推演“如果采用不同动作会发生什么”。两者配合，能够将人类操作数据逐步转化为机器人可直接执行的精准动作序列。

除了这套方法论，灵初智能还展示了其积累的近10万小时人类操作数据，并开源了一个包含1000小时数据的机器人学习数据集。

一、10万小时人类数据：成为机器人预训练的核心原料

这条技术路径的起点非常明确：将人类操作数据直接作为机器人预训练的主要原料。根据披露，Psi-R2的预训练同时融合了真机数据和人类数据。其中，真机数据来自灵初自有的Psi-MobiDex数据集，共计5417小时；人类数据总规模高达95472小时，覆盖了294种不同场景、4821种任务类型和1382种物体。

这背后是基于现实的深刻洞察。具身智能领域长期面临“存量数据”匮乏的困境——它不像自动驾驶拥有多年的路测数据积累，也不像大语言模型可以从互联网海量文本中获取语料。机器人要学习技能，无法从现成的语料库中提取，只能依靠现实世界一点一滴地“喂养”。

真机遥操作曾是一条相对直接的路径，但随着模型规模扩大和任务复杂度提升，这种数据供给方式开始显得力不从心。因此，人类数据的价值被重新评估和重视。其吸引力在于两点：一是来源天然丰富，人类的生产活动本身就在持续产生数据；二是数据更贴近真实作业流程，天然包含了任务目标、精细动作和实际节拍信息。简而言之，若想让机器人学会高效工作，最密集、最成熟的示范样本，本就存在于人类的双手之上。

关键问题在于，如何将人类数据与真机数据有效地“融合”在一起进行训练。灵初尝试过一系列复杂方案，如图像修复、关键点辅助损失、跨空间特征对齐等，这些方法在小数据量时有效。然而，当数据规模急剧扩大后，这些精巧的设计反而成为瓶颈。原因在于，这些方法的本质是试图让人手和机械手在视觉或特征空间上看起来一致，但两者的物理规律本就不同。对于手机装配这类精密操作，强行对齐反而会引入误差。

最终被验证有效的，是一条更为朴素的路线：原始数据输入，原始数据输出。在工程实现上，即通过运动学公式将人手关节数据转换为机械手关节数据，而图像数据则原封不动地直接输入模型，尽可能减少人为干预。从结果来看，这条路线目前是可行的。据披露，Psi-R2完成预训练后，仅需少于100条轨迹的真机数据进行微调，就能胜任手机装配、工业包装、纸盒折叠等长时序、高精度的复杂任务。

当然，仅有海量数据还不够。如何让机器人高效地“消化”这些数据？这就引出了这套框架的真正核心——世界模型驱动的强化学习。

二、Psi-W0：补全“如果失败会怎样”的推演能力

单独看Psi-R2，这套方法存在一个天然缺陷：它擅长从成功轨迹中学习，但自身难以生成反事实推理能力。这正是世界模型需要发挥作用的地方。

Psi-W0接收图像、语言指令和机器人动作轨迹，输出对未来场景的视频预测。它与Psi-R2最大的区别在于：动作在这里不仅是预测的结果，更是参与条件生成的关键输入。简而言之，它是一个以动作为条件的视频预测世界模型。

更通俗地比喻：Psi-R2像一个“会解题的学生”，而Psi-W0则像一套能够重新推演整个解题过程的模拟系统。策略模型知道哪些动作曾经成功，却不知道如果动作稍有偏差、顺序错乱或接触时机延迟会导致什么后果。然而，无论是强化学习、策略评估，还是人类动作向机器人动作的真正迁移，都离不开这部分关于“失败”或“偏差”的信息。

为了让模型学会理解失败，Psi-W0在训练中特意加入了约30%的失败样本，这些数据来自专项采集、常规采集以及模型推理过程。这样一来，它不仅认识“成功是什么样子”，也开始理解“失败会如何发生”。

在整个系统中，Psi-W0承担着两层核心作用。第一层是评估。数据规模再大，也不等于知识自动被模型掌握。策略模型是否真正学会了“人类是如何完成任务的”？需要一个能够推演轨迹、判断结果的系统来检验，Psi-W0就扮演这个角色。

第二层作用更为关键：它直接参与将人类数据转化为机器人可执行数据的过程。以抓取任务为例，人类抓取苹果的动作映射到机器人身上，很可能因为细微的位姿偏差而导致抓取失败。对于高精细任务，这种偏差往往是致命的。传统做法需要将场景和物体重建到仿真器中，再进行强化学习微调——流程繁重、成本高，还需面对仿真与现实的差异问题。

灵初智能的思路，是将这个过程转移到世界模型内部完成。首先让Psi-R2学习一条人类数据轨迹，然后将这条轨迹交给Psi-W0进行推演，在机器人视觉和机器人动力学的条件下观察动作结果；如果结果不理想，就继续通过强化学习调整动作，直到这条轨迹更贴近机器人真正能执行的状态。整体来看，这相当于为模型提供了一个“在梦境中试错”的空间。成功的轨迹可以回流到训练集中，成为新的有效数据；失败的轨迹同样具有价值，它们帮助模型识别失败的边界，推动世界模型的预测越来越准确。所谓的数据飞轮，正是这样转动起来的。

这套方法很快在权威评测中得到了验证。在美国艾伦人工智能研究所发起的MolmoSpaces榜单中，灵初智能的Psi-R2在总榜中位列第一，整体表现超越了具身大模型标杆π以及英伟达GEAR等主流方案，并与其他基线模型拉开了显著差距。MolmoSpaces是当前具身智能领域少数与真实世界评测具有强相关性的公开基准之一，吸引了包括NVIDIA、PI在内的全球顶尖团队参与。

三、数据价值的真正分水岭：信噪比、精度与节拍

如果说双模型架构回答了“如何学”的问题，那么本次发布中另一个更值得深思的问题是：“什么样的数据才值得学习”。灵初智能给出了一个明确的判断：决定数据价值的核心因素，不在于数量本身，而在于数据的信噪比。低信噪比的数据不仅学习效率低下，甚至会拖累整体训练效果。

进一步拆解：在数据分布上，优先级是任务多样性 > 物体多样性 >> 场景多样性；在感知模态上，优先级是精准3D位姿 >> 触觉模态 > 2D图像特征。这组结论具有强烈的指向性，它表明具身智能模型真正稀缺的，是更丰富的任务类型、更扎实的物体交互经验以及更高精度的动作轨迹。毕竟对于操作任务而言，背景信息很多时候只是辅助，模型真正需要学习的是物体特性、动作序列以及接触关系。

在这几个维度中，3D位姿精度尤为关键。当前常见的人类数据采集方式中，纯第一视角视频成本低、易规模化，但精度始终是短板。根据灵初披露的方案，他们通过端到端的第一视角手部检测模型预测MANO参数和位姿，再结合DPVO和Any4D技术，将轨迹统一到世界坐标系。即便如此，仅靠纯第一视角视频恢复的人手操作轨迹，误差仍在毫米级；只有引入自研的外骨骼手套进行数据采集，才能将误差压缩到亚毫米级。这也是为什么精细装配场景对数据精度格外敏感。手机装配、纸盒插接、精密抓取这类任务，往往不是“差不多”就能完成的，误差只要稍微放大，动作就会彻底失效。

除了位姿精度，另一条关键线索是触觉信息。近年来，触觉在机器人通用模型中一直较为稀缺。因为机器人端的触觉传感器本身难以稳定部署，不同硬件厂商的数据格式也不兼容，想将其做成可规模化复用的数据源非常困难。但人类侧的触觉采集条件则宽松得多，设备更轻便，成本也更低。

灵初此次将触觉视为一条关键线索。人与机器人外形不同、关节不同、动力学不同，但“是否发生接触”、“接触发生在何时”这类信号，本身就接近于一种跨本体的通用语言。考虑到现实中大多数机器人并没有成熟可用的触觉通道，灵初采用了掩码训练（Mask Training）的方式：在输入真机数据时屏蔽触觉通道，让模型去预测触觉信号，而不是直接将其作为观测输入。据披露，引入触觉信息后，Psi-W0的表现有明显提升，模型对机器人与物体交互过程的预判能力也更强。

更进一步，真正将实验室研究与工厂应用区分开来的，是作业节拍。这也是人类数据被重新重视的另一个深层原因。真实工厂中的标准作业程序，往往是经过长期打磨的最优结果，每多一个冗余动作、每慢一个节拍，都可能在规模化生产中被成本放大。假设机械臂的物理运动速度上限是1200单位，遥操作往往只能达到800甚至更低；而人类在本职工作中完成操作时，其节拍可以逼近机械臂的运动极限。换句话说，人类数据的价值不仅在于采集成本更低，也在于它更贴近真实的SOP（标准作业程序），更贴近真实的作业速度。对于旨在走向实际落地的具身智能模型而言，这类数据天然更符合产业需求。

四、1000小时开源数据集：背后是一条更完整的训练路径

灵初此次还发布了一套开源数据集。在其总规模近10万小时的人类操作数据中，率先开源了其中的1000小时。

不要小看这1000小时，其门道藏在数据结构中。数据分为两类：一类是高精度数据，经过处理后其轨迹能与真机执行高度对齐，回放性极强；另一类则主打大规模扩展，在可控精度下优先扩大数据量和泛化空间。一类保障操作精度，一类拓展预训练边界——两种数据置于同一套体系内，训练框架才真正形成了完整闭环。

顺着这个思路深入，本次发布的核心看点，早已超越了模型名称、榜单排名或开源数据本身。灵初真正展示的，是一条完整的机器人训练路径：当真机遥操作数据无法支撑大规模预训练时，就将人类数据注入训练的主干道。但仅有人类数据远远不够——需要策略模型来承接知识，需要世界模型来进行反事实推演和强化学习调优，还需要一套高效的转换机制，将人类的动作稳健地转化为机器人的动作。