中美谁能率先攻克机器人行业的真正瓶颈_AI热点日报

人形机器人商用瓶颈在于真实世界数据匮乏。美国走轻资产众包路线，采集人类传感器数据但质量低；中国押注重资产真机工厂，凭借制造业优势实现工业化数据采集与质控，形成自我强化的数据飞轮。

从舞台表演到实际作业：人形机器人距离大规模应用还差什么？

人形机器人，不应再只停留于表演

今年四月，在北京亦庄举办的一场特殊马拉松赛事，重新定义了人形机器人的运动极限。

一台名为"闪电"的仿人机器人，以50分26秒的净计时成绩成功冲过半程马拉松终点线——这个数字，比乌干达长跑名将基普利莫在今年3月于里斯本创造的人类男子半马世界纪录，还要快上整整7分钟。

然而，在惊叹之余，人们不禁要追问：人形机器人的热潮已持续许久，我们见过它们跳舞、翻跟头、跑马拉松、甚至登上春晚舞台，但它们究竟何时才能真正走进现实，承担起实际的工作任务？

就在日前，这一问题迎来了一个突破性的答案：5月7日，华人机器人初创企业Genesis AI 正式发布了其首个机器人基础模型 GENE-26.5。在演示视频中，机器人完成了一系列令人惊叹的流畅操作：单手打鸡蛋、双手配合切番茄、熟练使用盐研磨器和打蛋器、用铲子翻炒蛋液，甚至在打完鸡蛋后，还会拿起毛巾擦拭双手。

这个时长4分钟、包含超过20个子任务的长序列操作，全程由机器人在无人工干预下自主完成，视频以1倍速播放，没有任何加速处理。最令人印象深刻的细节是：在转移切好的番茄块时，机器人并未简单地将刀当作铲子使用，而是巧妙地利用刀背与砧板形成支撑，再通过双手的协同配合将番茄平稳转移——这一动作流程，已与人类的操作方式高度相似。

Genesis AI 官方直言不讳地指出，这套系统的核心并非什么神奇的算法，而是海量的数据。

GENE-26.5 模型背后，是超过20万小时的跨模态训练数据，其中包括通过高保真数据手套捕捉到的手部精细动作与触觉信号、第一视角视频记录的人类自然操作流程，以及第三人称视角视频提供的大规模物理交互场景覆盖。

数据的重要性，在近期举行的红杉AI Ascent 2026大会上，也得到了英伟达机器人业务负责人Jim Fan的有力印证。他在会上坦诚地表示：遥操作的时代已经过去，而人类传感器数据将具有持久的价值。

几乎在同一时期，太平洋彼岸的中国厂商们，已经在数据这一关键赛道上悄然展开了大规模投入。截至2026年，光轮智能已交付了多达150万小时的机器人训练数据；智元机器人依托其自建的4000平方米数据采集工厂，累计采集了超过百万条高质量真实世界数据，并发布了全球首个百万级真机数据集 AgiBot World；而宇树科技更是在今年4月，直接开源了源自G1真机的189万条动作数据，此举令整个行业为之震动。

简而言之，中美两国的头部企业都已清醒地认识到，在人形机器人的当前竞争中，高质量数据已成为决定未来竞争力的关键变量，这场数据争夺战的结果，将在未来数年内重塑整个行业的权力格局。

数据：决定成败的关键要素

许多人认为，对于机器人技术而言，模型与算法框架才是重中之重。

但现实是，无论是VLA模型、扩散策略还是模仿学习，如今都已发展成为行业内通用的基础技术。中美两国的学术界与产业界，几乎在同一时期内掌握了这些核心框架。算法的趋同化，意味着单纯依靠模型创新来拉开差距的时代已经终结。

然而，数据这一要素却因真实世界的物理约束，成为了制约发展的那块最短、最难以补足的短板。你可以在短短一周内复现别人的模型，却绝不可能在一周内积累他人耗时三年才采集到的百万小时真实机器人操作数据。

并且，在相同算法与模型框架的前提下，数据所带来的“涌现”效应，往往是拉开竞争差距的唯一决定性因素。

一个非常具体的案例，来自蚂蚁数科与宇树科技今年2月合作开展的一项实验。任务目标极其简单：让一台G1型机器人走到电脑前，伸手按下机箱上的电源按钮。

起初，所有人都不认为这是什么有挑战性的任务。然而实际测试的结果却令人大跌眼镜：在连续100次尝试中，成功率仅为45%。

问题究竟出在哪里？关键在于机器人总是按不准——要么按到旁边的USB接口，要么按到机箱的边缘棱角；要么力度过轻，无法触发开关；要么力度过猛，直接将整个机箱向后推出一段距离。最为滑稽的一次是，机器人的手指卡在了电源键与机箱之间的缝隙里，无法拔出。

工程师们尝试了所有可以想到的优化方案：调整关节力矩、提升视觉识别精度、增加力反馈阈值……但经过一周的反复调试，成功率最高也只勉强提升到52%。

最终，他们放弃了所有算法层面的取巧，转而采用了最朴实的方法：让真人操作员通过一部手机和20美元的颈挂支架，使用不同的力度和角度反复按压同一个电源键，一共采集了200条完整的真实操作数据。

随后，奇迹发生了。

再次进行100次同样的任务测试时，成功率直接从45%跃升至95%。其间没有任何算法层面的重大突破，也没有任何硬件层面的升级迭代，仅仅是增加了200条来自真实世界的数据样本，机器人的表现便实现了质的飞跃。

这正是数据的魔力所在。它不是带来原有基础上的线性增长，而是一种指数级的质变。相同的硬件、相同的算法，数据量翻倍，往往意味着任务成功率与泛化能力的飞跃式提升。

这种差距一旦形成，便极难被追赶。

两条截然不同的技术路线

既然数据如此关键，那么到底需要什么样的数据？

简而言之，在此问题上，当前机器人行业大致分成了两大阵营。

一派是以英伟达为代表的“仿真派”，他们信奉算力至上。依托Omniverse这样的数字孪生平台，他们在虚拟世界中构建出与真实物理规则高度一致的平行宇宙，让数以百万计的虚拟机器人在其中进行亿万次试错与训练。

仿真派的优势显而易见：成本低廉、速度快、能够实现无限规模扩展。但其致命弱点也同样突出：仿真环境永远存在“现实鸿沟”。无论物理引擎多么先进，你永远无法精准模拟一块沾了油的抹布的摩擦力、一个微有变形的纸箱的承重能力——这些对人类而言微不足道的细节，在仿真环境中往往被无情地简化或忽略。

另一派则是以中国厂商为代表的“真机派”，他们建造数据工厂、部署大量机器人本体、让人类穿戴专用设备亲自操作，在真实的物理环境中，一点一滴地采集包含每个动作、每次触摸、每次碰撞的完整数据。

真机派的优势在于能够获取真实的力矩反馈、触觉阵列信号、碰撞轨迹以及环境扰动信息。但它的劣势也十分明显：成本相对高昂、采集速度缓慢、资产重、投入大。一台人形机器人本体动辄十几万元以上，一个中型数据工厂的建设成本更是高达上千万元。

从总体来看，经过一段时间的较量，两大路线已大致分出高下。斯坦福大学在今年4月发布的《2026 AI Index Report》中，用一组冷峻的数据点破了“仿真万能论”的幻想：在最理想的实验室条件下，一个在仿真环境中能达到89%任务成功率的机器人，一旦被放置到真实世界中，其成功率会断崖式下跌至12%。

这样巨大的差距，正是横亘在仿真派面前那道难以逾越的“现实鸿沟”。

因此，即使是美国，如今也认识到了真实数据的重要性，只不过，他们所选择的并非“重资产的真机数据”路线，而是利用全球劳动力成本洼地（如印度、尼日利亚、阿根廷）结合零工平台（Gig Economy）与劳动者自带设备（iPhone），走出了一条“轻资产、高可扩展性”的人类传感器数据采集之路。

然而，这种形态本质上采集的是“人”的数据，而不是“机器人”的数据。工人折叠衣物的视频，记录的是人手的动作轨迹与人眼的观察视角。

中国也在积极转向人类传感器数据，但中国的优势在于：我们同时拥有“人类穿戴采集”和“产线嵌入采集”两种模式，而后者更是制造业场景所天然具备的。

面对相同的技术判断，演化出了两种不同的组织形态。这成为了数据之争中最隐蔽也最关键的变量。

投资策略的悖论

尽管中美两国都将主要精力转向了真机路线，但在具体投入方式上，却呈现出鲜明的差异：手握全球最雄厚风险资本的美国，最终选择了轻资产的众包数据路线；

而资本体量远不及美国的中国，却义无反顾地押注于重资产的真机工厂路线。

美国的风险投资资金，主要流向了Scale AI、Micro1等众包数据平台，以15美元的时薪招募全球零工，让他们将iPhone绑在额头上录制各种家务操作视频。这是一个“四两拨千斤”的故事：无需建工厂、无需购买机器人、无需培养专业团队，只需一个应用程序和一个全球零工网络。

例如，数据众包平台Generalist目前全球注册零工已超过230万人，号称每天能够生成超过10万小时的人类操作数据。

但问题在于，这个模式存在一个根本性缺陷：众包数据看似便宜，实则暗藏着高昂的“标注税”和“清洗税”。

据MIT Technology Review报道，这些众包视频中，大约只有一半能够通过质量检查。

原因何在？

因为这些视频普遍缺乏力觉、触觉等机器人训练所必需的核心传感器数据。你看到的是画面，但机器人需要知道的是：手指到底施加了多大的力？

要让这些视频真正用于模型训练，需要投入大量的后期标注与处理工作。包括标注每一帧的动作类别、物体位置、接触关系——这笔“标注税”，往往比数据采集本身更为高昂。

反观中国，尽管整体资本体量不及美国，却走出了一条截然不同的道路。中国企业将真金白银实实在在地投入到了数据工厂、机器人本体以及穿戴式采集设备中。

这种“正规军”式的打法，其优势在于通过工业级的质量控制体系，使得数据的有效利用率高出几十个百分点；同时，通过高度一致的采集硬件与标准化规格，使得人类采集的数据可以几乎无损地迁移到机器人模型上，从而省去了原本需要大量人工干预的标注、清洗、格式转换等环节。

以北京亦庄的人形机器人数据基地为例，该基地覆盖了家居、商超、办公、工业、医药等30多个典型应用场景，并配备了约200平方米的专业光学动作捕捉场地。基地内部署了120多台不同构型的机器人，并配有头环式、夹爪式采集设备、动作捕捉服装以及数据手套。

这样的采集规模与质量控制水平，远非美国那种依赖众包零工头上绑摄像头的模式所能比拟。

这类基地在经过数月的运营打磨后，内部质量检验的合格率可提升至约95%。

虽然在“人类传感器采集路线”上，中美都不再需要高昂的机器人本体，但真正的成本核心，已经从机器人硬件转移到了采集设备的标准化、应用场景的组织以及数据的清洗标注方面。

然而，对中国而言，这种看似“重资产”的路线，凭借规模化效应以及工业级质控带来的优势，其综合成本反而被有效控制住了。

因为在新一代人类传感器路线上，真正的竞争差距已不再仅仅停留于“能否低成本采集”，而在于“谁能把低成本采集来的原始数据，高效转化为模型真正能够吸收利用的有效数据”。

于是，一个颇具讽刺意味的局面形成了：美国虽然坐拥全球最丰沛的风险资本，却难以建立起中国这样的真机数据规模。原因在于其产业空心化，只能远赴第三世界寻找零工，依赖简陋的摄像头进行数据采集。

而由于采集设备的单一与简陋，加之零工操作的不专业性，美国的真机路线只能长期徘徊在“低技术、低质量、碎片化”的众包道路上，难以企及中国所达到的工业化、量产化级的数据生产水平。

结语

如果从行业终局的视角来审视当前机器人的数据竞争，你会发现，人形机器人的竞赛本质上是一场围绕“不可能三角”的博弈。

在任何一个给定的时间节点，没有任何一家公司能够同时实现硬件最强、算法最优、数据最多这三个目标——你通常只能强化其中两个方面，而必然在某一方面存在短板。

过去十年，是硬件主导的时代。波士顿动力在硬件运动控制上做到了极致，其Atlas机器人能跑能跳能后空翻，但它受限于算法与数据，只能在实验室里完成预设动作，至今无法真正走进现实世界。

过去三年，是算法主导的时代。VLA模型的爆发让所有人看到了通用机器人的希望，但算法的护城河却是最为脆弱的。一篇论文、一次开源，就能让数月的研发差距瞬间被抹平。

而未来三到五年，唯一真正的、不可逾越的竞争壁垒，正在数据领域悄然成形。

更重要的是，数据将形成自我强化的正向飞轮：在这方面，中国拥有美国无法比拟的独特优势。

中国拥有全球最丰富、最多样化的制造业应用场景，从3C电子产品的精密组装到汽车制造的焊接喷涂，从物流仓储的搬运分拣到餐饮服务的上菜收盘，无数工厂与企业愿意为人形机器人提供试错与应用的宝贵机会。

同时，得益于中国强大的制造业基础，人形机器人的生产成本远低于美国，这使得中国的机器人产品在人力成本高昂的国家具备了显著的出口竞争力。

以智元机器人为例，该公司正积极布局海外市场，其2026年的海外销售目标占比已超过30%。机器人价格的降低促进了出口量的增长与应用场景的拓展，进而能够收集到更多来自真实世界的数据；这些数据又反过来驱动算法迭代，进一步提升产品性能并压低成本，最终形成了一个强劲的正向循环。

当下，这场围绕人形机器人的数据之战才刚刚拉开帷幕。

而历史已经反复证明，当一项技术革命进入到工业化落地阶段时，拥有最完整产业链、最丰富应用场景、最强大制造能力的国家，往往能够笑到最后。