数据采集5大陷阱:训练前标注已注定模型成败,如何破解?
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
“我们只交付100%可以复现的轨迹。”
具身智能创企鹿明机器人媒体沟通会上,联席CTO丁琰对具身智能数据采集现状、困境,以及最新兴的采集方式UMI作了前沿的深度分享。
他在分享中反复强调,很多团队以为具身模型训不出来是卡在训练阶段,实际多数问题在数据生成的起点就已经埋下了。后面再堆模型、堆算力,只是在给错误输入继续加速。
丁琰的履历能解释他为什么会把“数据的可训练性”看得这么重。
他的研究方向是机器人学与具身智能,2024年3月从美国纽约州立大学计算机学院博士毕业。去年年底加入鹿明之前,他做过一星机器人的CTO,更早则在上海AI Lab担任研究员。
按他的说法,从2024年3月起,他就持续投入UMI方向,是大陆最早做UMI方向的人。

UMI全称叫Universal Manipulation Interface,最早来自斯坦福在2024年2月提出的一套工作。
其核心是用与具体机器人本体解耦的方式,记录人类在真实物理世界中的操作行为,把“操作意图+运动轨迹+多模态感知”统一到一个通用接口里,供不同形态的机器人学习和复现。
在去年9月之前,UMI还是一个偏冷门的方向。
具身智能进入下半场后,数据的重要性与日俱增。
丁琰分享道,前段时间有人归纳了具身智能在解决数据难题时的四种解法。
遥操作数据,最著名的代表是智元机器人。仿真数据,代表公司是银河通用机器人。人类视频数据,它石智能就是这种解法的代表。UMI,去年9月开始冒头,鹿明就是代表性公司。
鹿明基于现实需求,做出了一个名为FastUMI Pro的产品,这是一个无本体数采硬件。
系统适配市面主流机械臂和夹爪,机身重量在600多克量级,但能夹起两三公斤物品,场景覆盖工厂与家庭。
它还支持多模态输入,包括触觉、听觉、六维力等。
在UMI设备最核心的空间精度上,丁琰称FastUMI Pro的1mm是“全球最高精度”。

硬件产品背后,还有鹿明布局的数据采集、模型训练生态。
以“可复现”作为第一性原理做数据治理,丁琰带领团队建立了8道工业级数据质量评估体系,并承诺只交付100%可复现轨迹。
(以下为丁琰分享的关于具身行业数采、UMI等相关内容,在不改变原意的基础上作了编辑调整)
具身数采的现存痛点
2024年3月起,我就开始在做UMI,应该是大陆最早做这一块的人。
大家都知道,具身智能最关键的就是数据,海量的数据是训练的一个必经之路。
但是数据现在有很多痛点。
第一个痛点就是成本,成本异常高昂。
美国那边,为了采集一个小时的训练数据,大概要付出100-200美金的成本。
现在的具身模型都还很小,PI 0的训练数据大概是1万个小时,Generalist的GEN 0是27万个小时。这个规模对比GPT-3的训练数据,还是非常小的。
我们做了一个统计,大概相当于7.9亿个小时的数据,才能在具身智能界训出一个GPT-3规模的模型。按照现在的市场价格,需要耗费数百亿美金。

另外,具身数据整体采集效率还是比较低的。
2024年到2024年左右,业内都是以遥操为主,一个小时大概能采集35条数据,效率异常低,成本也不可控。
遥操还有个问题是什么呢,就是采集时,因为摄像头记录的是机械臂本身的运动轨迹和画面,但每家机器人长得又都不一样,所以用A机器人做遥操作采集的数据是很难很难用到B机器人上的,这就产生了数据孤岛问题。
大家重复造轮子,也会造成高昂的隐形成本。
这是我们想解决的关键问题所在。
用UMI数采,你为什么训不出来模型?
前段时间我写了一篇小红薯,题目叫《你为什么训练不出来UMI的模型?》。
我想就这次机会简单跟大家介绍一下UMI行业的现状。大家可能看到的更多的是冰山的一角,但浮在水下面的一个世界还是比较深的。
一个很明显的现状就是什么呢?
做UMI的人陆陆续续越来越多,但是训出来模型的异常的少,可能一只手都数得过来。
很多UMI设备涌现出来,大家都会强调自己低成本、能即插即用、快速部署,但是基本上你看不到什么成功的案例,就这个是非常非常有意思的现象。

国外有两家比较知名的公司,一个叫Sunday,一个叫Generalist,他们还是训出模型了。
国内目前我们觉得训模型训得比较好的一家就是我们,再有就是清华一家,上交一家,总共也就两、三家能训得出来。
大多数情况下,要么训不出来,要么即使是在相似的条件下能跑出来demo,时间也非常短,可能就3、4秒,也很卡顿,不丝滑。
关于为什么大家用UMI采集出来的数据训不出模型,最常见的解释是“算法不是很成熟”“模型不够大”“数据规模不足”,但是其实这些解释都不是真正的原因。
真正的原因根本不在于训练阶段,而在于训练之初它就不是太对——
大量的UMI数据从生成开始就不具备进入训练管线的这个条件。
说白了就是数据不合格。

什么是可以训练的UMI数据
大家会有误解,总觉得UMI数据就是人拿个夹爪,就把这个视频数据记录下来就行了,非常非常简单,所有人都可以做。
其实完全不是。
UMI其实是AI对物理世界的理解对齐,并且在这个物理空间里面可以复现的这种交互行为。
它必须满足几个条件。

拆开了讲,第一个就是说画面要跟动作要严格对齐,要跟空间位置严格对齐;另外一个就是说因为UMI可以集成多个传感器,每个传感器之间也要做到毫秒级的同步。
举个例子,一个人想去拿眼前的一瓶水,不对齐的话得反应好几秒,水就可能拿不起来。
另外,一个好的轨迹必须可以在物理空间运动中可复现的。
本质要求是希望UMI采集的数据是高一致性的、高密度的,并且可复现的时序数据结构。
为什么大多数UMI设备采不到好的数据?
现在大量的UMI设备采不出满足条件的数据,两个根本原因。
一,核心问题是硬件能力完全不够。
UMI的CMOS组件或者主控芯片,性能非常差。
导致的结果就是画面覆盖有限,画质不怎么好,曝光也不怎么好,帧率比较抖动,这时候画面就非常糟糕。
它破坏了动作和视觉的因果关系。本来模仿学习就是我看到什么画面就做什么动作,结果画面和动作完全无法对齐,就会导致这个模型根本没办法学习。

二,市面上很多产品不是系统设计的,而是很多现成模块拼凑起来,用USB Hub连接的。
这样一来,产品的贷款架构非常脆弱,每个模块都会抢带宽。一旦有什么负载,就会出现掉帧等一系列问题,所以数据的质量就非常糟糕,基本没办法稳定复现交互记录。
也就是说,从硬件层面讲,这些设备从一开始就没办法训出模型需要的数据。
“脏数据”和“废数据”
但即使设备好了,采的数据能不能训出数据也不是一定的。
举个例子,别人拿到我们的设备,也不一定能训出好的数据。
为什么呢?这就要说数据的质量高低了。
数据质量的高低其实并不是干净程度,而是说有效的信息密度。
低质量的数据,包含大量抖动、漂移、时间错位,非常不利于学习。特别是在单视角情况(很多UMI是单个机械臂),这种噪声不会因为你的数据量增大而被平滑掉,所以说你学出来的策略会非常非常糟糕,基本上训不出来。
低价值数据不是完全没有价值。
它还是有点价值,可以去认识这个世界,知道什么是杯子,什么是麦克风,但没办法从它身上学习到精确的物理交互信息。
它不知道桌上的麦克风我是怎么拿到的,我到底该正着拿还是反着拿,还是需要倾斜角度去拿。
除了低质量的脏数据,我还把一种数据叫“废数据”。

废数据是什么?
就是很多人拿着设备直接去众包去采集了,人怎么采就拿它怎么采。
这种数据完全copy人类的自然行为,没有任何设计和技巧,过于“天然去雕饰”了,基本上是不可能训出来模型的。
现在都在做的叠衣服,其实是最需要采集技巧的一个任务。叠衣服的时候要抖一下,抖的过程中还要注意方向、速度,才能抖好。
但人在叠衣服的时候,很少会注意那么多tricks。
每家具身公司都有自己的采集技巧,所以如果没有注入任何技巧,即便拿到很好的UMI设备,采集的数据很像人的行为,但其实是废数据,基本上模型训练不了。
能当然可能未来,十年、二十年,模型发展好了,这些数据可能就有用了。但目前很长一段阶段这些数据基本上训不了,所以称为废数据。
硬件、数据和算法环环相扣
正确的UMI的工程范式首先是一种系统的自洽,而不是一种简单的功能拼接。
传统的路径下面大家做机器人,首先有个硬件,硬件弄完了之后再弄软件,弄完软件我再弄算法,我反过头来我再去补点数据,把这个整个loop给跑通。
但在UMI这个很特殊的场景下,这个范式是失效的。
因为UMI是一个强耦合系统,数据会决定整个模型的性能,硬件会决定这个数据的质量;数据又会决定这个算法的性能,算法又会反向去约束我这个硬件的执行和这个数据的设计。
硬件、数据和算法环环相扣,任何单点的这种失效都会导致训不出优秀的模型。

关于UMI,团队做了什么
博士毕业后,我从2024年3月就开始在做面向UMI的工作。
去年9月之前,UMI在行业里还是比较冷门的,除了我和我的团队基本没人做。
当时我们就有一个愿景,希望能打破这个数据获取的这个不可能的三角,把非常高质量的数据砍到白菜价,加速应用来推进这个整个具身智能行业的发展。
这里跟大家分享我和团队近两年的一些典型工作。

首先就是FastUMI,我是这篇工作的通讯作者。
FastUMI应该是全球首个将学术界(UMI,斯坦福,2024年2月)的工作升级成工业级别系统,然后推进它进入工业的。我们从2024年3月左右开始做这个工作,在7、8月左右完成,当年的9月中了CoRL 2025。
FastUMI主要解决的问题是提高采集效率和数据质量。
另外一个工作是FastUMI 100K。
在有了一个很稳定的软硬件系统后,我们开始扩大规模去采数据。当时我在上海AI Lab建立了一个数采长,我带着11个人在3个月时间里,采集了10万条真机数据,为机器学习提供了非常高质量的数据支持。
这是全世界首个大型的UMI数据集。
从这个工作中FastUMI团队获得了大规模的数据治理的经验。
我们还有一个工作叫Fastumi-MLM,它把UMI这项技术用于“狗+臂”。
之前UMI都应用在单臂、双臂或者轮式双臂工作上。这是大陆第一个能将UMI用在这种构型机器人上的工作。
除此之外,还有Spatial VLA、Agibot World、AskVLA等等。
相关攻略
Discord接入:让OpenClaw成为你的社区智能管家 对于全球数亿的游戏玩家和社群爱好者来说,Discord几乎等同于线上“大本营”。那么,有没有可能让你精心搭建的Discord服务器也拥有一个聪明能干的AI助手呢?答案是完全可行。通过创建Discord Bot(机器人),你可以将OpenCl
Claude最强“神话”模型,可能用到来自字节的技术? 这条猜测直接冲上了热搜榜。 这款被形容为“强到不敢公开发布”的Mythos模型,确实极大地刺激了人们对下一代大语言模型架构的想象空间。 社区讨论的焦点,正集中在它是否采用了“循环语言模型”(Looped Language Model)这一创新架
国产大模型DeepSeek迎来重大更新:快速模式与专家模式上线 最新消息显示,国产AI大模型DeepSeek再次迎来重要升级。4月8日,用户在访问DeepSeek时发现,输入框上方新增了“快速模式”与“专家模式”两个选项。根据官方说明,快速模式专注于日常对话场景,响应速度快,同时支持图片和文件中的文
飞书接入指南:为你的团队嵌入一位AI同事 如果你身处国内互联网或科技行业,对飞书这款高效协作平台一定非常熟悉。如今,它已不仅是团队沟通工具,更成为众多企业的数字化工作中枢。那么,能否让团队成员在飞书内部,直接调用强大的AI智能助手来提升效率呢?答案是肯定的。本指南将手把手教你,如何将OpenClaw
面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。它们生成的轨迹经常陷入局部合理但全局偏航的窘境。它们太关注眼前的每一步,却忘了最终的目的地。针对这一痛点,厦门大学和香港科技大
热门专题
热门推荐
红色沙漠星之塔怎么进入 好消息是,星之塔的进入方式非常直接,它会在主线流程中自动解锁,你完全不需要提前满世界探索或者寻找隐藏入口。 当你跟随主线指引,到达星之塔所在的那片区域后,抬头就能看到它矗立在山顶。接下来要做的很简单:沿着图中这条醒目的红色路线所示的楼梯,一路向上攀登,就能直达山顶的星之塔正门
《王者荣耀世界》即将正式与玩家见面 备受期待的开放世界RPG手游《王者荣耀世界》,已经进入了上线前的最后阶段。官方释放的大量前瞻信息中,地图设计与剧情体验无疑是两大核心亮点。而作为游戏首赛季(S1)的重头戏,全新区域“姑射山”的登场,显然不仅仅是添一张新地图那么简单。它被深度植入了原创剧情,旨在为玩
红色沙漠动力核心怎么获得 想拿到动力核心,目标很明确:找到那些固定刷新的阿比斯守卫。它们常在一些特定地点徘徊,比如坍塌城门区域的悬崖边上,就是不错的狩猎场。 找到目标后先别急着动手,这里有个关键步骤能省下大量时间:在开打前,务必手动保存一下游戏。这相当于给自己买了一份“保险”,万一守卫没掉你想要的东
《王者荣耀世界》已正式官宣将于2026年4月上线 千呼万唤始出来,腾讯天美工作室的开放世界MMOARPG《王者荣耀世界》,终于敲定了2026年4月的上线日期。消息一出,玩家社区的讨论热度再次被点燃。在众多引人注目的首发角色里,“元流之子”以其鲜明的定位和独特的技能设计,成为焦点中的焦点。最近,不少玩
《王者荣耀世界》英雄获取全指南:三种核心方式,快速组建强力阵容 在《王者荣耀世界》的开放世界中开启冒险之旅,作为“元流之子”的你,最令人期待的体验莫过于招募那些熟悉与全新的英雄伙伴。无论是伽罗、东方曜等经典角色,还是“冷春”这样的原创人物,他们的独特故事与强大技能,共同构成了这个东方幻想世界的核心吸





