中国公司以人类数据训练AI模型斩获多项全球第一

时间：2026-05-19 14:38

灵初智能推出具身大脑模型Psi-R2与Psi-W0，基于人类数据训练并在权威榜单夺冠。公司积累近10万小时多模态数据并开源部分数据集，技术路线受国际资本关注。通过策略与评估模型分离的架构，提升真实场景泛化能力，探索以数据为核心的商业模式，为行业提供全面解决方案。

今年四月，具身智能领域迎来一个值得关注的发布。灵初智能推出了两款名为Psi-R2和Psi-W0的“具身大脑”模型。更引人注目的是，在艾伦AI研究所的MolmoSpaces榜单上，Psi-R2一举超越了PI、DreamZero等国际知名模型，登顶全球第一。

这两款模型的成功，背后是一条与众不同的技术路线。与行业主流依赖仿真或遥操作数据不同，灵初智能从一开始就坚定地押注“人类数据”进行训练。这条更贴近真实世界的高质量数据路径，为模型带来了更强的泛化能力。截至目前，公司已积累了近10万小时的人类操作数据，并开源了全球最大的人类手部操作全模态数据集。可以说，在人类数据这条赛道上，灵初智能已经占据了领先身位。

这一独特的技术选择近期也获得了国际资本的关注。5月7日，摩根士丹利在其发布的《人形机器人前沿报告》中，将灵初智能列为中国机器人“大脑阵营”的核心代表之一。

“我们的目标，是成为基于人类数据的具身大脑，在海外市场重塑具身智能的技术生态。”公司CEO王启斌这样阐述其愿景。

灵初智能CEO王启斌

率先押注“人类数据”

回顾具身智能的发展初期，业界在数据采集上主要有两种思路。一种是仿真模拟，即在虚拟环境中生成海量数据，成本低但真实性存疑。另一种是真机遥操作，数据真实，但本质是“机器教机器”，难以复现人类复杂的感知与纠错能力。

这两种方式都存在天然的局限。仿真数据难以模拟柔体、精细接触等复杂物理交互；而遥操作数据则缺失了人类决策与适应过程中的关键信息。问题的根源在于，它们都未能触及人类完成动作的核心机制。

人类执行一个物理任务，其实是一套精妙的闭环流程：观察环境、拆解步骤、尝试触碰、精细操作，并在过程中不断感知反馈、实时纠错。这背后是多感官协同与强大自适应能力的体现。

如果能将人类在这一流程中产生的视觉、触觉、位姿等多模态信息完整捕捉并记录下来，用于训练机器模型，那么模型就能真正“理解”人类的操作逻辑。这类数据，就是所谓的“人类数据”，它被视作训练通用具身模型最高质量的“原料”，但获取难度也最大。

灵初智能的联合创始人陈源培很早就洞察到了这一点。在2024年末的机器人顶会CoRL上，他明确提出，人类行为可以被捕捉并转化为机器人的训练数据。他早期利用人类手部数据进行模型训练的探索，也为公司坚定选择人类数据路线奠定了技术基础。

如今，灵初智能确立了以人类数据为核心、仿真数据为辅助的策略，并采用了“无本体数采”的方式——让人直接佩戴数据采集设备执行动作，从而获取最纯粹的人类操作数据。

为此，公司自主研发了全球首个灵巧手真实世界数采引擎Psi-SynEngine。当人类佩戴特制数据手套在真实劳动场景中工作时，系统能同步采集视觉、手部关节角度、触觉及腕部位姿等多模态数据。这些原始数据经过云端自动化管线的质检与处理后，便成为训练具身大脑的宝贵养料。

用人类数据训练模型的趋势正日益明朗。自2025年下半年起，越来越多的头部公司开始转向人类数据采集。而灵初智能凭借先发优势，已积累了近10万小时的人类手部操作多模态数据。今年的目标，是冲击100万小时——一个被认为能让模型能力发生质变的关键数据量级。

全球最大的开源 AI 社区 HuggingFace 上，由灵初智能开源的SynData 数据集冲上了 Trending 榜全球第一

王启斌表示，灵初智能希望成为“人类数据标准的制定者”，并正尝试通过开源推动行业共识的形成。“我们已经开源了全球最大的人类手部操作全模态数据集，首批开放1000小时。接下来，还将结合行业力量，共同推动相关评测基准的建设。”

基于10万小时“人类数据”的具身大脑

今年四月发布的Psi-R2和Psi-W0，正是基于上述10万小时人类数据训练而成的“具身大脑”双生子。在实际运作中，它们分工协作，共同完成复杂的决策与评估任务。

Psi-R2是一个策略模型，部署在机器人身上，负责执行具体动作。它是全球首个以10万小时量级人类数据预训练的世界模型，这也是其能在MolmoSpaces榜单上超越一众国际对手的关键。

Psi-W0则扮演着“仿真器”与“考官”的角色。它的核心功能是评估和优化R2的策略。当R2在W0模拟的物理环境中执行一个动作后，W0会计算出结果，并与预设目标进行比对。一致则判定成功，不一致则判定失败，并据此向R2提供反馈信号，驱动其调整策略。

这个过程可以类比为：机器人尝试将一根线束插入电脑的Type-C接口。最终状态是否符合预期，由W0来判定。如果失败，R2就在W0构建的虚拟环境里不断试错、进行强化学习，直到成功。

为了让模型更深刻地理解物理世界的边界与失败的可能性，灵初智能在训练W0时特意注入了30%的失败数据，教会它识别“什么情况下容易出错”。

这种将策略模型（R2）与仿真评估模型（W0）分离的架构，与行业主流的单模型设计思路不同。王启斌解释道，分离是因为两者的任务本质相悖：R2需要学习“成功是如何发生的”，因此其训练数据必须是成功案例；而W0要学习“世界的物理规律”并具备“反事实推演”能力，恰恰需要大量失败数据。

在模型能力的演进上，灵初智能设定了清晰的阶段性目标：今年年中，实现长程任务成功率40%-60%，并具备更强的zero-shot（零样本）泛化能力；到年底，将结合语言模态，让模型能够根据自然语言指令自主进行任务规划。

王启斌强调，公司的定位始终是“大脑公司”，所有硬件产品都是为模型能力服务的载体。例如，公司在2025年推出了拥有21个自由度的灵巧手ψ-SynHand，但这款产品并不单独出售。“我们最关心的不是灵巧手本身，而是模型的进展。”硬件，只是展示模型智能水平的舞台。

不只做“大脑”，还把数据做成生意

王启斌将公司的发展规划为三个阶段：硬件、数据、产品落地。目前，灵初智能正处在承上启下的“数据阶段”。

在灵初智能的蓝图里，数据不仅是训练模型的“燃料”，其本身就可以构成一种商业模式。公司已经开始向头部具身智能公司和基座模型公司供应人类视频数据及精细操作数据。“数据会成为基模公司和集成公司非常重要的输入。”王启斌指出。

然而，一个随之而来的问题是：当越来越多的公司开始自采人类数据时，灵初智能对外供应数据的独特优势何在？王启斌认为，优势恰恰源于公司自身训练模型的实践。正因为亲自用数据“喂养”和调教模型，才更深刻地理解什么样的数据最有价值、该如何采集和处理。这种对模型需求的深度认知，是其作为数据供应商的核心壁垒。

灵初智能的数据商业路径可以拆解为三个层次。

第一层，是工具层。公司自研的外骨骼数据采集手套，能将数据采集成本降至传统真机方案的十分之一。这套硬件本身就可以作为商品出售或租赁。

第二层，是数据层。依托已积累的近10万小时数据，覆盖294种场景、4821种任务、1382种物体，灵初智能直接向客户供应经过处理的优质数据集。

第三层，是方案层。公司提供“模型+灵巧手+数据服务”的整体打包解决方案。目前，其核心客户主要集中在两类场景：一是制造业的精密装配，如电子产品组装；二是物流行业的服装仓储拣选、分拨和打包。

这套商业模式能否跑通，关键在于“数据飞轮”能否真正转起来——即每在一个新场景落地，模型消耗的演示数据越来越少，而公司积累的场景数据却越来越多。从目前的进展看，这一趋势已得到验证：半年前，在物流场景部署一个新任务需要几百条真机演示数据，而现在不到100条就能完成。

基于对技术发展周期的判断，灵初智能认为，具身智能的竞争已经进入“数据浪潮”的下半场。当下的核心议题，不再是仿真与真机之争，而是比拼谁能用高质量的数据驱动“具身大脑”在真实场景中高效、可靠地落地。

从定义数据标准出发，灵初智能找到了自己的节奏。在如何将数据转化为商业价值，如何构建数据、模型与产品落地的正向闭环上，它已经摸索出一条可执行的路径。这或许正是灵初智能在日趋激烈的行业竞争中，试图构建的最深护城河。

来源：https://www.163.com/dy/article/KT9QHIUH05119C3G.html

多个

上一篇我国自主研发新型鲎毒素检测系统每年可保护近十万只中华鲎 下一篇vivo S60系列5月29日发布田曦薇代言新机正式亮相

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。