身智能难现ChatGPT时刻训练无范式数据质量良莠不齐

时间：2026-06-16 12:22

具身智能发展远未成熟，模型训练缺乏统一范式，数据质量参差不齐。行业需提升数据效率与质量，突破预训练及后训练技术，使机器人实现自主作业。未来两三年内若取得突破，出货量有望在2028年底前增长，但需率先在B端场景闭环运行。

具身智能当下的热度，说实话，跟它真正的发展成熟度之间，还隔着不小的距离。机器人的“ChatGPT时刻”远未到来，而其中卡住模型进化脖子的数据问题，更是个老生常谈却又绕不开的硬骨头。

在6月13日的2026北京智源大会“具身智能与人形机器人”圆桌论坛上，参与讨论的嘉宾们几乎达成了一致：无论是模型、数据，还是商业闭环，眼下都还处在非常早期的探索阶段。

2026北京智源大会“具身智能与人形机器人”圆桌论坛。直播截图

模型训练范式远未收敛

具身模型是今年最热的话题之一。北京大学计算机学院长聘副教授、智在无界（BeingBeyond）创始人卢宗青就指出，目前关于具身基础模型该怎么训练，行业内其实远未形成共识。和大语言模型已经摸索出一套公认的技术路线不同，具身智能这边还是一片混沌。预训练做完之后，后续如何通过后训练让模型真正具备泛化能力，这才是真正的核心挑战。虽然大家都在讨论真实数据和仿真数据该怎么配比，但说到底，“怎么训练模型”本身，还没有一个公认的范式。

这就引出了一连串问题：预训练阶段到底需要什么样的数据？什么样的数据才真正适配具身模型？是要场景化的，还是通用化的？

上海创智学院副教授、智元机器人首席科学家罗剑岚认为，预训练阶段“各类数据都不可或缺”，但真实世界的数据应该是基础。原因很朴素：真实世界的数据能帮模型建立对物理世界更底层的理解——基础模型越强大，处理其他数据的能力自然也跟着提升。

它石智航联合创始人兼首席科学家、复旦大学青年研究员丁文超则提出了一个值得深思的观点：当前行业严重低估了一个关键指标——数据效率（Data efficiency），也就是每单位数据对智能提升的实际贡献。

丁文超指出，当下大家讨论数据时，注意力大多集中在数据量、多样性、任务覆盖和场景覆盖上。但更重要的是，每类数据到底有多大程度上提升了模型的能力。“不能只是把数据喂给模型，或者在闭环实验中看到一些模糊的泛化效果就满足了，而应该系统地去刻画数据对模型能力的贡献。”在他看来，判断数据是不是真的有效，关键要看模型吸收之后，它的泛化能力能不能超越人类——“要看泛化能力是否超过了人类，而不是盯着Demo里那些四倍速、五倍速执行任务的表面功夫。”

低质量无效数据的困扰

数据质量同样是圆桌讨论中被反复提及的痛点。当前具身智能行业的数据缺口固然巨大，但数据采集供应商提供的数据质量却是参差不齐，低质量数据、无效数据的问题，实实在在地困扰着与会嘉宾。

银河通用的王鹤结合内部实践举了个例子：现在市场上有很多第一人称视角数据（ego-centric data），不少供应商是依赖开源算法完成基础标注后就直接对外销售。银河通用每次拿到这类数据，都需要进行系统性的质检，“数据质量良莠不齐，高质量的数据真的非常少。”

卢宗青也表达了类似的困扰：数据供应商的水平参差不齐，多数采用“按需采集”的模式，但模型公司真正需要的其实是多样化的存量数据，而不是过于特定的数据。“尤其是第一人称视角数据火了之后，有些供应商连文本标注、动作标注的标准都还没统一，甚至反过来问模型公司该怎么标。”

丁文超则认为，模态越多，数据采集的复杂度就越高。许多没有本体的数据采集设备，根本没经过训练管线的验证，光从形态和配置就能判断，这些数据很难真正用于训练。他提出了一个很有意思的数据金字塔结构：未来，互联网视频和低成本的第一视角数据会越来越廉价，价值持续降低；中间层是包含精确末端动作、触觉等信息的数据；塔尖则是高质量遥操作数据。真正有价值的，不仅是数据的数量，更是数据系统里的每一个细节。

创业公司如何突围

在大家频繁讨论具身智能、追问机器人距离“ChatGPT时刻”还有多远之前，王鹤认为，首先得把“具身智能（Embodied AI）的ChatGPT时刻”到底是什么定义清楚。

他给出的定义很具体：机器人能在真实场景中，把人类不需要专门学习的技能，以70%到80%的成功率完成，同时还要具备良好的可部署性。这里面包含两个具体指标：一是能力（Capability），即机器人要具备相对通用的任务执行能力；二是可部署性（Accessibility），即这种能力要足够易用、便于落地。

王鹤判断，如果未来两三年内这两个关键问题能取得突破，那么行业出货量有望在2028年底前后迎来增长。不过，这种增长会率先出现在B端场景，而不是直接进入C端家庭。即便如此，从轮式机器人到全人形机器人、从传统夹爪到灵巧手的技术演进，依然意味着还有很长的路要走。

“未来24个月，具身智能行业面临的核心问题，是预训练技术以及支持快速部署的后训练，能不能取得突破，让机器人真正实现自主作业，而不是停留在‘卖跑跳功能’‘卖预编程表演’的阶段。只有当数万台具备自主工作能力的机器人投入实际应用，才能说行业进入了新的发展阶段。”王鹤这样说。

从长远来看，王鹤认为具身智能必然会形成完整的产业链，不可能由一家或几家公司垄断所有市场。但在“ChatGPT时刻”真正到来之前，构建闭环是至关重要的。初创企业若想在当前阶段突围，必须以快制胜——对于硬件中其他企业难以做好的部分，必须自己纳入技术闭环来掌控，否则依赖外部供给只会拖慢发展节奏。

罗剑岚也指出，当前的硬件虽然不算完美，但已经足以支撑特定几类任务的闭环运行。相比之下，数据闭环、模型闭环以及持续迭代的数据飞轮，才是更关键的因素。他判断，未来半年到18个月内，谁能先在有限但并非完全封闭的半开放场景中跑通第一个闭环，谁就将决定竞争格局的走向。这个闭环不需要覆盖所有场景，但必须能在真实环境中持续运行、采集数据并优化模型。

丁文超则强调，模型、数据与本体之间需要系统化的优化，硬件、本体与人类数据（human data）也需要实现对齐。“许多真正影响机器人执行效果的关键因素，往往隐藏在大语言模型（VLA）、世界模型（World model）这些高大上的概念背后，比如末端传感器怎么配置、硬件形态怎么设计、数据怎么采集、模型推理效率与吞吐能力这些细节。”

来源：https://www.163.com/dy/article/KVER4L7P0514R9P4.html

模型训练