游乐游手机版
首页/科技数码/文章详情

身智能难现ChatGPT时刻 训练无范式数据质量良莠不齐

时间:2026-06-16 12:22
具身智能发展远未成熟,模型训练缺乏统一范式,数据质量参差不齐。行业需提升数据效率与质量,突破预训练及后训练技术,使机器人实现自主作业。未来两三年内若取得突破,出货量有望在2028年底前增长,但需率先在B端场景闭环运行。

具身智能当下的热度,说实话,跟它真正的发展成熟度之间,还隔着不小的距离。机器人的“ChatGPT时刻”远未到来,而其中卡住模型进化脖子的数据问题,更是个老生常谈却又绕不开的硬骨头。

在6月13日的2026北京智源大会“具身智能与人形机器人”圆桌论坛上,参与讨论的嘉宾们几乎达成了一致:无论是模型、数据,还是商业闭环,眼下都还处在非常早期的探索阶段。


2026北京智源大会“具身智能与人形机器人”圆桌论坛。直播截图

模型训练范式远未收敛

具身模型是今年最热的话题之一。北京大学计算机学院长聘副教授、智在无界(BeingBeyond)创始人卢宗青就指出,目前关于具身基础模型该怎么训练,行业内其实远未形成共识。和大语言模型已经摸索出一套公认的技术路线不同,具身智能这边还是一片混沌。预训练做完之后,后续如何通过后训练让模型真正具备泛化能力,这才是真正的核心挑战。虽然大家都在讨论真实数据和仿真数据该怎么配比,但说到底,“怎么训练模型”本身,还没有一个公认的范式。

这就引出了一连串问题:预训练阶段到底需要什么样的数据?什么样的数据才真正适配具身模型?是要场景化的,还是通用化的?

上海创智学院副教授、智元机器人首席科学家罗剑岚认为,预训练阶段“各类数据都不可或缺”,但真实世界的数据应该是基础。原因很朴素:真实世界的数据能帮模型建立对物理世界更底层的理解——基础模型越强大,处理其他数据的能力自然也跟着提升。

它石智航联合创始人兼首席科学家、复旦大学青年研究员丁文超则提出了一个值得深思的观点:当前行业严重低估了一个关键指标——数据效率(Data efficiency),也就是每单位数据对智能提升的实际贡献。

丁文超指出,当下大家讨论数据时,注意力大多集中在数据量、多样性、任务覆盖和场景覆盖上。但更重要的是,每类数据到底有多大程度上提升了模型的能力。“不能只是把数据喂给模型,或者在闭环实验中看到一些模糊的泛化效果就满足了,而应该系统地去刻画数据对模型能力的贡献。”在他看来,判断数据是不是真的有效,关键要看模型吸收之后,它的泛化能力能不能超越人类——“要看泛化能力是否超过了人类,而不是盯着Demo里那些四倍速、五倍速执行任务的表面功夫。”

低质量无效数据的困扰

数据质量同样是圆桌讨论中被反复提及的痛点。当前具身智能行业的数据缺口固然巨大,但数据采集供应商提供的数据质量却是参差不齐,低质量数据、无效数据的问题,实实在在地困扰着与会嘉宾。

银河通用的王鹤结合内部实践举了个例子:现在市场上有很多第一人称视角数据(ego-centric data),不少供应商是依赖开源算法完成基础标注后就直接对外销售。银河通用每次拿到这类数据,都需要进行系统性的质检,“数据质量良莠不齐,高质量的数据真的非常少。”

卢宗青也表达了类似的困扰:数据供应商的水平参差不齐,多数采用“按需采集”的模式,但模型公司真正需要的其实是多样化的存量数据,而不是过于特定的数据。“尤其是第一人称视角数据火了之后,有些供应商连文本标注、动作标注的标准都还没统一,甚至反过来问模型公司该怎么标。”

丁文超则认为,模态越多,数据采集的复杂度就越高。许多没有本体的数据采集设备,根本没经过训练管线的验证,光从形态和配置就能判断,这些数据很难真正用于训练。他提出了一个很有意思的数据金字塔结构:未来,互联网视频和低成本的第一视角数据会越来越廉价,价值持续降低;中间层是包含精确末端动作、触觉等信息的数据;塔尖则是高质量遥操作数据。真正有价值的,不仅是数据的数量,更是数据系统里的每一个细节。

创业公司如何突围

在大家频繁讨论具身智能、追问机器人距离“ChatGPT时刻”还有多远之前,王鹤认为,首先得把“具身智能(Embodied AI)的ChatGPT时刻”到底是什么定义清楚。

他给出的定义很具体:机器人能在真实场景中,把人类不需要专门学习的技能,以70%到80%的成功率完成,同时还要具备良好的可部署性。这里面包含两个具体指标:一是能力(Capability),即机器人要具备相对通用的任务执行能力;二是可部署性(Accessibility),即这种能力要足够易用、便于落地。

王鹤判断,如果未来两三年内这两个关键问题能取得突破,那么行业出货量有望在2028年底前后迎来增长。不过,这种增长会率先出现在B端场景,而不是直接进入C端家庭。即便如此,从轮式机器人到全人形机器人、从传统夹爪到灵巧手的技术演进,依然意味着还有很长的路要走。

“未来24个月,具身智能行业面临的核心问题,是预训练技术以及支持快速部署的后训练,能不能取得突破,让机器人真正实现自主作业,而不是停留在‘卖跑跳功能’‘卖预编程表演’的阶段。只有当数万台具备自主工作能力的机器人投入实际应用,才能说行业进入了新的发展阶段。”王鹤这样说。

从长远来看,王鹤认为具身智能必然会形成完整的产业链,不可能由一家或几家公司垄断所有市场。但在“ChatGPT时刻”真正到来之前,构建闭环是至关重要的。初创企业若想在当前阶段突围,必须以快制胜——对于硬件中其他企业难以做好的部分,必须自己纳入技术闭环来掌控,否则依赖外部供给只会拖慢发展节奏。

罗剑岚也指出,当前的硬件虽然不算完美,但已经足以支撑特定几类任务的闭环运行。相比之下,数据闭环、模型闭环以及持续迭代的数据飞轮,才是更关键的因素。他判断,未来半年到18个月内,谁能先在有限但并非完全封闭的半开放场景中跑通第一个闭环,谁就将决定竞争格局的走向。这个闭环不需要覆盖所有场景,但必须能在真实环境中持续运行、采集数据并优化模型。

丁文超则强调,模型、数据与本体之间需要系统化的优化,硬件、本体与人类数据(human data)也需要实现对齐。“许多真正影响机器人执行效果的关键因素,往往隐藏在大语言模型(VLA)、世界模型(World model)这些高大上的概念背后,比如末端传感器怎么配置、硬件形态怎么设计、数据怎么采集、模型推理效率与吞吐能力这些细节。”

来源:https://www.163.com/dy/article/KVER4L7P0514R9P4.html
上一篇比亚迪海豚G DM-i欧洲亮相 4.16米车身纯电续航105km引关注 下一篇荣耀X80 Pro Max 11000mAh最大电池6月22日发布
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。