桥介数物尚阳星谈机器人运动能力远未解决

时间：2026-06-04 13:55

机器人全身运动能力比操作能力更基础，但数据被低估。桥介数物建立跨本体全身运动数据工厂，采集高精度人体动作数据训练通用运动模型，实现跨机型复用，致力于成为机器人时代的基础设施。

全身运动数据的重要性，长期被行业所低估。

机器人进入真实物理世界“工作”，究竟需要怎样的数据支撑？面对这一问题，绝大多数具身智能从业者会不假思索地回答“操作数据”。毕竟，人类执行任务离不开双手，因此人形机器人的末端精细操作数据，自然成为业界聚焦的核心。

然而，桥介数物创始人尚阳星给出了一个截然不同的答案。

在他看来，机器人的全身运动数据价值被严重低估了。机器人要想在真实环境中完成复杂任务，仅依靠末端操作能力远远不够，底层的全身运动控制能力才是根基。这个逻辑可以通过一个比喻来理解：如果把机器人比作一台电脑，运动控制能力相当于操作系统的内核，而操作模型则相当于上层的应用软件。缺少底层系统，任何应用都无法运行。

换言之，缺乏高质量的运动数据与全身运动模型，机器人将难以适应多样化的地形、应对突发性扰动，更谈不上实现长期稳定运行和商业化落地。

基于这一判断，桥介数物在半年前启动了“跨本体全身运动数据工厂”的建设，并于近期正式投入运营。他们将采集的数据定义为跨本体全身运动数据（Cross-Embodiment Whole-Body Motion Data，简称CWM）。CWM包含人体全身动作、第一人称与第三人称视角视频、语义标签、环境信息以及接触与物理状态信息，是一种多模态数据集，用于训练通用的全身运动模型。其最大特点是具备跨本体迁移能力。

依托数据工厂深耕运动控制基础设施，桥介数物希望构建一套人形机器人通用的操作系统，类似于尚阳星此前在中国移动具身智能产业大会上提出的Runtime Robot OS（运行时机器人操作系统）。简单来说，这是一套通用的底层运动能力基础设施，让不同机器人都能复用同一套运动模型，新机型接入后无需再为大量动作进行重复训练。

桥介的定位也随之升级，从具身小脑厂商转型为具身智能基础设施公司。不过从某种意义上说，这更像是一种回归，尚阳星表示：“从创业第一天起，我就想做机器人时代的基础设施。”

01. 运动泛化能力，仍是人形机器人面临的核心挑战

Q：如今机器人演示视频已能完成奔跑、跳跃、越障等动作，看似全身运动不再是关键瓶颈，为什么你们还要投入建设运动数据工厂？

尚阳星： 目前公众看到的机器人运动视频，大多是针对特定场景精心调校出来的。例如春晚表演的机器人，需要七八位工程师耗费三四个月才能完成一个节目，一旦更换场景就难以复用。这里本质问题是运动泛化能力不足。我们理解的泛化，是让同一套系统适应不同地形、不同机型以及不同动作，并在复杂环境中长期保持稳定运行。目前还没有任何机器人能实现这一点。此前我们为客户提供运动控制方案时，虽然采用了通用框架，但仍需针对性适配。建数据工厂的目的，就是为了训练真正通用的底层运动模型，让机器人获得接近人类的运动能力，这件事目前远未被解决。

Q：在真实环境中，机器人最容易在哪些环节出现问题？

尚阳星： 首先是感知层面。当前机器人的感知是被动的，就像人闭着眼睛走路，遇到意外时反应极为剧烈，在人流密集的场景中存在安全隐患。最近也有公司发布了机器人的语音交互演示，但这种理解还很浅层，并没有形成对真实外部世界的深度认知。其次是长期运行稳定性问题。长时间运行后，关节出现磨损、性能发生偏移时，机器人很难像人类受伤后那样继续调整动作并适应环境，持续学习与自我补偿能力仍然薄弱。这些正是我们会重点攻克的难题。

Q：构建通用的底层运动模型，对具身智能的商业化落地能带来实质性价值吗？

尚阳星： 行业目前大多聚焦于人形机器人的上半身控制，未来要实现机器人全身协同作业，就必须搭建通用的全身运动控制基础模型。基于这套模型，手部动作等操作模型可以直接部署，无需反复解决全身运动适配的繁琐问题。

Q：既然全身运动能力如此关键，为什么行业整体不太重视运动数据，反而都集中在上半身控制，去采集操作数据？

尚阳星： 因为叠衣服、端咖啡、拧螺丝这类操作任务成果直观，价值容易被看见。机器人的运动能力相当于Windows、iOS这类底层基础运行系统，操作能力则相当于系统之上的各种应用APP。一旦缺少底层系统，所有应用都无法运行。机器人同样如此，没有稳定的全身运动能力，复杂操作只能局限在固定桌面，无法真正落地。市场需要更多人做应用，但也需要有人做基础设施。基础设施平时不被关注，一出问题就影响全局；做扎实了反而不易被察觉，但至关重要。

Q：为什么不去购买现成的数据，而是选择自建数据工厂？

尚阳星： 三个原因。第一，市面上买不到高质量的运动控制数据，这类数据供应商极少，且价格昂贵。国内专注于运动控制且真正重视这件事的企业，可能只有桥介。我们内部之前也用过动捕设备采集，但进度缓慢，需要更工业化、规模化的采集手段。第二，我们发现过去的数据普遍存在“本体绑定”问题——机型一变，数据就无法使用，迁移能力极差。我们需要更多无本体依赖的数据，以促进模型快速迭代。第三，我们发现数据量越大，全身运动基础模型的表现就越好。这个规律不仅在我们工作中得到印证，英伟达在一个项目中也提到类似观点：数据规模越大，模型效果更优。英伟达开源了数百小时的运动数据，但这个量级离上限还差很远。既然发现这个领域也遵循Scaling Law，我们就果断加大投入。

Q：近期大家都在谈论世界模型，很多人认为它将成为机器人理解物理世界的关键能力。桥介也会往这个方向布局吗？

尚阳星： 我们也在训练动作层面的世界模型。训练世界模型本身同样需要大量数据，视频是其中重要的一类。不过，世界模型可以接受任何形式的视频，在处理动作维度时，需要进行一些特殊的处理。

02. 人形机器人，或将比四足机器人更早实现落地

Q：你们具体是如何采集数据的？

尚阳星： 我们的数据工厂采用动捕加视频（包括第一人称和第三人称）的方式采集，采集后还会人工标注语义标签。我们采集的是人类全身运动数据，涵盖手部和全身的动作，初期会从不涉及精细操作的全身动作入手。这类数据可以与行业现有的操作数据配合使用，形成互补。

Q：为什么选择这种采集方式？它比行业主流的方案更好吗？

尚阳星： 优势体现在两点。第一，无本体依赖，数据可以跨本体迁移，采集更加简单。很多厂商采用遥操作，数据与本体强绑定，复用性差，而且需要人去适应机器人，动捕则不需要。第二，数据精度更高。目前很多人体数据依赖视频提取，全身动作还原的精度有限。要采集高精度、高质量的全身人体动作，目前只有全身动捕这一种可靠方法。这些高精度数据后续还可用于训练视频动作提取模型。

Q：去年开始行业流行无本体采集方案，UMI就颇受欢迎，为什么你们不采用这种成本更低、更简易的方案？

尚阳星： UMI本质上是在去掉机器人本体后，只保留末端执行器，用夹爪和相机采集数据。问题在于，如果用夹爪采集，以后本体上的夹爪就无法更换为其他执行器，灵活性远不如人手，而且通过视频提取的人体全身动作精度也不够。后来行业开始转向采集人体数据，因为人体数据更通用，不会绑定某个机器人。但新的问题是，人与机器人结构不同，不同机器人之间也存在差异，因此人体动作还需要经过重定向和适配。所以我们特别强调跨本体能力。

Q：你们的跨本体能力是如何实现的？存在技术壁垒吗？

尚阳星： 迁移过程中涉及的核心技术是重定向。我们自主研发了一套重定向引擎，能够自动适配不同机器人的构型、动作和地形，还支持边采集边重定向。行业中的很多重定向方案只考虑运动学，即单纯复现运动轨迹，而我们同时加入了动力学，会综合考虑重力、受力以及平衡问题。一般的数据工厂都不会做到这一步，这也构成了我们的技术优势。举例来说，人跳起来是一条抛物线，如果机器人只是照着轨迹模仿，落地时很容易失败。加入动力学后，机器人会结合自身结构和受力情况调整动作，更符合真实物理规律。

Q：在数据迁移过程中，哪些构型的机器人更容易迁移，哪些更困难？

尚阳星： 桥介采集的是人类数据，因此主要面向与人类形态最接近的双足人形机器人。机器人的形态与人越相似，数据迁移就越容易；形态差异越大，迁移难度越高。

Q：为什么不选择落地更容易的四足狗或轮足人形来做运动控制？很多人认为四足狗加机械臂比人形落地更快、成本更低，轮足在许多场景中也够用了。

尚阳星： 轮足在特定场景确实够用，但如果目标是实现物理世界的AGI，就需要更通用的形态，也就是双足人形。至于落地顺序，我有一个非共识的看法：人形机器人会比四足机器人更早实现落地。这有点像大语言模型的发展历程——语言能力其实是人类后期才演化出来的，但因为互联网上文本数据足够多，反而最先突破。机器人运动也一样，过去运动数据没有被系统记录，但如果现在开始大规模采集，可能也会很快迎来突破。

03. 建设数据工厂，最难的不是采集本身

Q：你们收集的全身运动数据不涉及精细操作，未来如何与市面上已有的操作数据融合？

尚阳星： 我认为不存在融合难题，或者说我们会主动做好融合作业。我们倾向于分层式架构：上层负责认知与任务理解，底层负责实时运动控制，而桥介提供的是底层运动控制模型。原因在于认知模型体量大、推理速度慢，运动控制模型则对实时性和安全性要求极高，两者很难用同一个模型兼顾。Figure的具身模型就采用了多系统架构。未来机器人行业也会像操作系统与应用软件一样，形成更明确的软件分工。

Q：这其中有一个很大的问题——行业数据格式不统一，你们怎么应对？

尚阳星： 目前行业的数据格式大多沿用了影视动画行业的体系，所以标准并没有特别混乱。数据格式不统一的主要原因之一正是数据和本体强绑定，应该转而采集无本体数据，这已经是大势所趋。

Q：做数据工厂，最难的环节是什么？

尚阳星： 数据处理与数据闭环是最困难的。大规模数据需要完整的数据管线，解决调配、算力处理等问题。数据工厂还必须跑通“设计—采集—处理—训练—反馈”的完整闭环，背后涉及大量系统协同与流程管理。其中采集环节是成本最高的，而反馈环节决定了数据的有效性。单纯做动作采集难度并不大，花钱购置设备就能完成，真正的难点在于后续的整体运营与统筹管理。

Q：你们如何定义高质量运动数据？数据质量又是如何保障的？

尚阳星： 高质量数据首先要求噪声小、轨迹稳定，动作姿态自然，不能出现肢体穿插、穿透等异常情况。数据质量主要取决于录制方式和动捕设备的精度。动捕设备直接录制的数据精度高、质量好；从视频中提取的数据精度就差不少。因此，在源头环节我们就用高精度动捕设备进行标准化采集，并设计了涵盖动作分类、质量权重、标签维度、环境参数、位姿信息及质检标准在内的准入体系。但设备本身存在局限，难免产生异常数据，所以采集完成后会经过人工核验和程序自动筛选环节，通过自研管线完成跨本体的数据清洗、动作重定向等操作，就连训练阶段也会再次筛查。最后，训练结果还会反向指导数据采集——比如哪些动作效果不理想、哪些场景覆盖不足，都会反馈给采集端，用于调整下一轮数据采集方向，从而形成持续优化的数据闭环。

Q：行业中有一种观点认为脏数据也有价值，你们会收集这类数据吗？

尚阳星： 脏数据应该分为两类：任务失败数据和低质量数据，两者的价值完全不同。大家常说的脏数据，通常是指机器人执行任务失败后恢复的数据，比如摔倒后自主起身，这类数据很有采集价值。而低质量数据，是指采集时因设备故障等问题录出的本身就错误、失常的动作数据，这类数据没有用处，不需要保留。

Q：同时满足高质量和大规模两个要求一直是具身数据领域的难题，桥介是如何平衡数据规模与数据质量的？

尚阳星： 先使用一小批有一定规模、高质量的数据训练模型，再让这个模型从视频中挖掘更大规模的数据，形成相互增强的循环。视频中包含了所有信息，只是当前提取能力有限。就像自动驾驶，视频里可能包含深度信息，但模型能力不够就无法提取，需要视频与深度配对的数据来训练模型。机器人同理，视频中包含大量人体动作信息，人看视频就能学会，但当前从视频中提取这些信息的基础设施还没有建设好。

Q：训练过程中会使用仿真数据吗？

尚阳星： 会，而且仿真数据是必不可少的。人体数据经过重定向后，机器人还需要在仿真环境里进行强化学习训练，用来弥补人体动作与机器人实际执行之间的差距。离开数据工厂后的复杂环境适应，本质上也要依赖强化学习来完成泛化。

Q：使用的真实数据与仿真数据的比例大概是多少？

尚阳星： 仿真数据会比真实数据多出好几个量级。

04. 我们的终极目标，是成为机器人的基础设施

Q：目前数据工厂处于什么阶段？

尚阳星： 已经跑通了全部流程，目前正处于产能爬坡阶段。过去三个月，我们在内部试点中成功跑通了跨本体全身运动数据工厂的端到端链路，累计产出了近千小时高质量的CWM数据，利用这些数据训练出的模型已经在十多款不同足式机器人上完成验证。我们计划今年内一天采集数十个小时的数据，一个月就是数千小时。预计今年全年将收集上万小时的数据。

Q：这些数据会带来哪些提升？未来会开放给行业使用吗？

尚阳星： 主要体现在我们模型泛化能力的提升，尤其是不同动作之间的泛化。目前机器人跳不高或做不好极端动作，补充更多数据后就能学会。这些数据主要服务于我们内部的模型训练，不会直接提供给外部使用。但如果合作方有购买数据的意向，也可以洽谈。

Q：具体到产品层面，今年会拿出什么成果？

尚阳星： 数据训练出的能力，会通过我们的平台化产品提供给行业。去年更多是非泛化的动作。今年我们重点攻克两个泛化方向：跨本体和跨机型。6月份我们将推出一款具有革命性的产品，这将是历史上第一个将机器人运动控制做成标准化方案的产品。我们的设想是，未来任意机器人接入平台后，就能快速获得对应的运动能力，不再需要为每个动作重复训练。例如，平台可以与机器人拳击赛结合，让用户自由组合不同机型的技能，区分为力量型、速度型等不同能力，不同本体之间的比赛才更有看点。

Q：目前桥介在数据工厂上的投入大概是什么量级？

尚阳星： 我们采购了一批动捕设备，一套动捕设备约几十万元，再算上场地搭建、团队人员运营等成本，整体投入在千万级别。

Q：数据的合格率高吗？一条数据的成本是多少？

尚阳星： 目前数据合格率可以达到90%以上。我们不按“条”计价，而是按“小时”计算，因为不同数据条的时长差异很大。一小时数据的采集成本大约是几百元，未来还会进一步降低成本。

Q：如果想让机器人真正达到接近人类的运动能力，需要多大规模的数据量？

尚阳星： 大概需要几十万小时量级的数据，人形机器人的运动才能达到很好的效果。这个数字是基于人一生约几十万小时的粗略推断，但人的动作有重复，也不可能做遍所有动作，所以这只是一个非常粗略的估算。如果数据量上来后，发现数据对模型训练已经没有用了，我们也会停止扩张。

Q：这么说的话，聚焦运动控制会不会天花板很低？未来你们还会拓展其他方向吗？

尚阳星： 等到集齐足量的运动数据、机器人运动能力成熟之后，我们也不会止步于此。首先依靠海量全身运动动捕数据打好基础，让模型具备动作组合能力，能够灵活搭配不同动作完成各类任务。后续场景类、融合感知的规划数据，可以依托成熟模型从视频中提取，覆盖海量复杂现实场景。我们的最终目标是提供基础设施，让用户在平台上进行组合创新，护城河在于构建应用生态。

Q：基础设施的概念，听起来比你们之前“小脑厂商”的定位更为宏大。

尚阳星： 其实从创业开始，我们就想做通用机器人时代的基础设施厂商。运动控制虽然不等于完整的操作系统，但它是操作系统中非常重要的一部分。桥介的长期定位是做人形机器人的操作系统，打造生态。

Q：之前有投资人告诉你，你做硬件他们才投，现在他们的看法改变了吗？

尚阳星： 我们最近每天都在接待投资人，刚刚结束一轮融资，正在开启新一轮融资。我感觉越来越多的投资人都看明白了，有投资人直接对我说，硬件赛道现在太卷了，投了那么多家，最后能留下来的估计没几家。真正具有长期价值的，是底层平台能力。

来源：https://www.leiphone.com/category/robot/OAl1Kvwa2rq9N4yx.html

机器人

上一篇雷军展示YU7车外语音泊车，窄车位自动驶出 下一篇卡片相机市场火爆二手价格暴涨数倍

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。