游乐游手机版
首页/业界动态/文章详情

自变量开源具身数采方案首提数据混合黄金配比训练提效20倍

时间:2026-06-11 14:04
自变量机器人开源XRZero-G0方案,通过添加头部摄像头与三层自动质检机制,实现数据高效采集。提出无本体与真机数据10:1混合配比,训练效果持平纯真机数据,成本降至1 20,训练效率提升20倍,并开放2000多小时多模态数据集。

数据采集与治理,正成为制约具身智能产业发展的核心瓶颈。

试想一下,大语言模型训练可以调用万亿级数据,而具身智能所需的数据却必须从真实物理环境中逐一“采集”回来。采集难度大、成本高昂、数据可用性低、跨本体迁移困难——这几座大山长期压着行业。如何建立高效可复用的采集机制,开放共建高质量数据集,已成为整个产业的当务之急。

近日,自变量机器人开源的一套软硬一体方案——XRZero-G0,正强力回应这些行业痛点。论文发布当周便冲上alphaXiv趋势热榜前十,迅速引发业界广泛关注。该系统通过在硬件层增加头部视角,在软件层构建多视角交叉约束、限位检测和真机成功率检测,搭建起一套科学的数据采集与治理体系。

更值得关注的是,他们同步开放了2000多小时、覆盖3000个任务的多模态全身无本体数据集 G0-Dataset。令人印象深刻的是,实验表明:用10份无本体数据配合1份真机数据混合训练,效果竟然与同等规模的纯真机数据不相上下。采用这些数据训练的模型,不仅摆脱了对固定本体姿态和型号的过拟合,还展现出出色的零样本迁移能力。

这也是国内首个大规模跑通“全身无本体采集→自动质检→混合训练→真机评测”全闭环的工作。可以说,它构建了一条规模化采集数据、形成迭代飞轮的可实践路径。

自变量开源具身数采方案,首次提出数据混合“黄金配比”,训练提效20倍

XRZero-G0 整合无本体数据采集、闭环质检和数据配比方案

软硬一体保障数据高可用,有效率提升至85%以上

先说硬件层面。XRZero-G0做了一个看似简单却关键的改进:增加头部摄像头,并将其数据与腕部两个视角严格对齐。在同等采集量下,训练效率更高,混合收益也明显更稳定。

软件层面的动作更值得深入剖析。它将数据质量管控前置到采集阶段,构建了三层递进的自动质检和筛选机制,不再等到训练时才去处理低质量数据:

第一层,观测层。利用多个视角、多个时间点的数据反复交叉验证,防止视觉与运动的误差被不断放大。第二层,动力学层。将外部动作数据翻译为目标机器人自身可执行的动作,避免自碰撞、关节限位或力矩超限,使数据筛选从“定性”变为100%可验证的流程。第三层,策略层。以真机开放回环执行的成功率,作为数据可用的最终判据。

这套方法论将数据治理从“采集端的工艺优化”延伸到了“训练端的分布对齐”,让无本体数据也能达到与真机数据相当的可信度和可执行性。坦率地说,这为以全身无本体数据为基础的预训练范式,打开了全新的可能。

发明“真机:无本体”数据“黄金配比”,数据成本降低至1/20

在具身智能领域,用真机数据与无本体数据混合训练已成为行业共识。但关键问题在于:两者究竟该以什么比例混合?过去一直缺乏科学依据。

自变量通过后训练阶段的对照实验,得出了一个可复现的答案:10份无本体数据搭配1份真机数据,效果等同于同等规模的纯真机数据。简而言之,无本体数据让模型见多识广,学会常识和动作规划;真机数据则帮助模型“查漏补缺”,修正电机延迟、本体差异、摩擦力等物理细节。两者结合,能将获取训练数据的成本压缩至原来的1/20。

自变量开源具身数采方案,首次提出数据混合“黄金配比”,训练提效20倍

数据配比方案效果实测

更为关键的是,真机实验表明,这种“混合配方”还带来了两个意想不到的优势:一是摆脱了对固定本体姿态的过拟合,能够适应不同工作台角度、站位和视角;二是实现了跨本体的零样本迁移能力,即便在从未“见过”的机器人本体上也能零样本部署,无需针对性微调。

这些实验足以证明,自变量构建的这套数据采集与治理方法,以及将真机和无本体数据混合训练的系统化路径,并非权宜之计,而是能够真正支撑具身模型走向规模化的可行方案。

开放首批无本体数据集,构建具身行业数据基础设施

真实物理环境的数据,正成为具身智能模型发展的“稀缺燃料”。不少企业和团队都在自建采集流程,但这使整个行业陷入了“数据孤岛”的困局。而自变量机器人的选择,是打破这一局面。

目前,第一批无本体数据集已在Huggingface平台上线,技术报告也已发布于arXiv。从硬件搭建、自动化质检流水线到混合数据配比的后训练策略,整套方案均可复现使用。相关论文和数据集的公开,在alphaXiv和国内社区引发了广泛讨论。

或许,这标志着具身智能产业开始告别“盲采盲训”的摸索阶段,向更加系统、更为开放的未来迈进。

来源:https://news.zol.com.cn/1196/11965317.html
上一篇联想全品类产品7月将再次涨价 下一篇款现代伊兰特三款车型上市9.98万起配置升级
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
长安汽车明年一季度发布首款车载人形机器人小安
业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略,采用“1+N+X”布局,联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm,体重69kg,移动速度0 8m s,具备40个自由度,续航超2小时。预计明年一季度发布首款车载组件机器人,已在广州车展展示。

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影
业界动态 · 2026-06-29

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影

3月25日,光通信领域迎来又一个里程碑:中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司,成功实现了2 5Pb s 24芯光纤超大容量实时光传输,再次刷新了世界纪录。 这一研究成果不仅入选国际顶级光通信会议OFC(2026)并荣获“高分论文”称号,还受国际权威SCI

美国调查18万辆特斯拉Model3车门应急释放装置易找性
业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查,焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿,不意味着立即召回,但可能引发后续监管措施。

doc个人图书馆停服 创始人称无偿转让失败
业界动态 · 2026-06-29

doc个人图书馆停服 创始人称无偿转让失败

运营长达20年,累计服务8000万用户的360doc个人图书馆,最终还是迎来了谢幕时刻。2026年5月1日,这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失,而是始终未能寻得一位能够安全接管的合适人选。 创始人蔡智在告别信中坦言,近两个月来,他一直在尝试将360doc无偿转

年Q1随身WiFi实测安全靠谱高性价比机型推荐
业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月,艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证,紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后,折射出一个清晰的市场趋势:移动办公、户外出行、宿舍上网等场景的需求正在快速增长,随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿