具身智能当下的热度,说实话,跟它真正的发展成熟度之间,还隔着不小的距离。机器人的“ChatGPT时刻”远未到来,而其中卡住模型进化脖子的数据问题,更是个老生常谈却又绕不开的硬骨头。
在6月13日的2026北京智源大会“具身智能与人形机器人”圆桌论坛上,参与讨论的嘉宾们几乎达成了一致:无论是模型、数据,还是商业闭环,眼下都还处在非常早期的探索阶段。

2026北京智源大会“具身智能与人形机器人”圆桌论坛。直播截图
模型训练范式远未收敛
具身模型是今年最热的话题之一。北京大学计算机学院长聘副教授、智在无界(BeingBeyond)创始人卢宗青就指出,目前关于具身基础模型该怎么训练,行业内其实远未形成共识。和大语言模型已经摸索出一套公认的技术路线不同,具身智能这边还是一片混沌。预训练做完之后,后续如何通过后训练让模型真正具备泛化能力,这才是真正的核心挑战。虽然大家都在讨论真实数据和仿真数据该怎么配比,但说到底,“怎么训练模型”本身,还没有一个公认的范式。
这就引出了一连串问题:预训练阶段到底需要什么样的数据?什么样的数据才真正适配具身模型?是要场景化的,还是通用化的?
上海创智学院副教授、智元机器人首席科学家罗剑岚认为,预训练阶段“各类数据都不可或缺”,但真实世界的数据应该是基础。原因很朴素:真实世界的数据能帮模型建立对物理世界更底层的理解——基础模型越强大,处理其他数据的能力自然也跟着提升。
它石智航联合创始人兼首席科学家、复旦大学青年研究员丁文超则提出了一个值得深思的观点:当前行业严重低估了一个关键指标——数据效率(Data efficiency),也就是每单位数据对智能提升的实际贡献。
丁文超指出,当下大家讨论数据时,注意力大多集中在数据量、多样性、任务覆盖和场景覆盖上。但更重要的是,每类数据到底有多大程度上提升了模型的能力。“不能只是把数据喂给模型,或者在闭环实验中看到一些模糊的泛化效果就满足了,而应该系统地去刻画数据对模型能力的贡献。”在他看来,判断数据是不是真的有效,关键要看模型吸收之后,它的泛化能力能不能超越人类——“要看泛化能力是否超过了人类,而不是盯着Demo里那些四倍速、五倍速执行任务的表面功夫。”
低质量无效数据的困扰
数据质量同样是圆桌讨论中被反复提及的痛点。当前具身智能行业的数据缺口固然巨大,但数据采集供应商提供的数据质量却是参差不齐,低质量数据、无效数据的问题,实实在在地困扰着与会嘉宾。
银河通用的王鹤结合内部实践举了个例子:现在市场上有很多第一人称视角数据(ego-centric data),不少供应商是依赖开源算法完成基础标注后就直接对外销售。银河通用每次拿到这类数据,都需要进行系统性的质检,“数据质量良莠不齐,高质量的数据真的非常少。”
卢宗青也表达了类似的困扰:数据供应商的水平参差不齐,多数采用“按需采集”的模式,但模型公司真正需要的其实是多样化的存量数据,而不是过于特定的数据。“尤其是第一人称视角数据火了之后,有些供应商连文本标注、动作标注的标准都还没统一,甚至反过来问模型公司该怎么标。”
丁文超则认为,模态越多,数据采集的复杂度就越高。许多没有本体的数据采集设备,根本没经过训练管线的验证,光从形态和配置就能判断,这些数据很难真正用于训练。他提出了一个很有意思的数据金字塔结构:未来,互联网视频和低成本的第一视角数据会越来越廉价,价值持续降低;中间层是包含精确末端动作、触觉等信息的数据;塔尖则是高质量遥操作数据。真正有价值的,不仅是数据的数量,更是数据系统里的每一个细节。
创业公司如何突围
在大家频繁讨论具身智能、追问机器人距离“ChatGPT时刻”还有多远之前,王鹤认为,首先得把“具身智能(Embodied AI)的ChatGPT时刻”到底是什么定义清楚。
他给出的定义很具体:机器人能在真实场景中,把人类不需要专门学习的技能,以70%到80%的成功率完成,同时还要具备良好的可部署性。这里面包含两个具体指标:一是能力(Capability),即机器人要具备相对通用的任务执行能力;二是可部署性(Accessibility),即这种能力要足够易用、便于落地。
王鹤判断,如果未来两三年内这两个关键问题能取得突破,那么行业出货量有望在2028年底前后迎来增长。不过,这种增长会率先出现在B端场景,而不是直接进入C端家庭。即便如此,从轮式机器人到全人形机器人、从传统夹爪到灵巧手的技术演进,依然意味着还有很长的路要走。
“未来24个月,具身智能行业面临的核心问题,是预训练技术以及支持快速部署的后训练,能不能取得突破,让机器人真正实现自主作业,而不是停留在‘卖跑跳功能’‘卖预编程表演’的阶段。只有当数万台具备自主工作能力的机器人投入实际应用,才能说行业进入了新的发展阶段。”王鹤这样说。
从长远来看,王鹤认为具身智能必然会形成完整的产业链,不可能由一家或几家公司垄断所有市场。但在“ChatGPT时刻”真正到来之前,构建闭环是至关重要的。初创企业若想在当前阶段突围,必须以快制胜——对于硬件中其他企业难以做好的部分,必须自己纳入技术闭环来掌控,否则依赖外部供给只会拖慢发展节奏。
罗剑岚也指出,当前的硬件虽然不算完美,但已经足以支撑特定几类任务的闭环运行。相比之下,数据闭环、模型闭环以及持续迭代的数据飞轮,才是更关键的因素。他判断,未来半年到18个月内,谁能先在有限但并非完全封闭的半开放场景中跑通第一个闭环,谁就将决定竞争格局的走向。这个闭环不需要覆盖所有场景,但必须能在真实环境中持续运行、采集数据并优化模型。
丁文超则强调,模型、数据与本体之间需要系统化的优化,硬件、本体与人类数据(human data)也需要实现对齐。“许多真正影响机器人执行效果的关键因素,往往隐藏在大语言模型(VLA)、世界模型(World model)这些高大上的概念背后,比如末端传感器怎么配置、硬件形态怎么设计、数据怎么采集、模型推理效率与吞吐能力这些细节。”
