首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
这家公司为何投入1万小时开发智能数据处理工具?

这家公司为何投入1万小时开发智能数据处理工具?

热心网友
12
转载
2026-01-06

机器之心发布

想象一下,你正在训练一个未来的家庭机器人。你希望它能像人一样,轻松地叠好一件衬衫,整理杂乱的桌面,甚至系好一双鞋的鞋带。但最大的瓶颈是什么?不是算法,不是硬件,而是数据 —— 海量的、来自真实世界的、双手协同的、长程的、多模态的高质量数据。

因此为了整个具身智能探索加速,开源集合成为了大家的共同选择,从谷歌 Open-X Embodiment、智元 AgiBot Digital World,到智源 RoboCOIN 与它石智航的 World In Your Hands,都在试图构建更庞大、更完善的数据集合,并开源给到全行业。

但在 1 月 6 日,有一家公司将这件事做到新高度,进行了超过 1 万小时、接近百万 clips 的具身数据集合开放,这是行业最大规模、也是泛化程度最高的开源数据集合,它就是简智机器人的 “10Kh RealOmni-Open DataSet”



(下载地址为:https://huggingface.co/datasets/genrobot2025/10Kh-RealOmin-OpenData,其他数据正在陆续上传。国内也与阿里魔搭、百度百舸合作,方便国内用户下载。)

这批数据集合和之前不同点在哪儿?

总体规模大,这个体量甚至已经超越很多具身公司自己所储备的数据,而在量大的同时,这个数据集合还期望它更加“实用”

首先需要它具备足够强的 “技能深度”,在简智开源数据集合中,没有选择去发散的扩充技能数量,而是聚焦在 10 个常见家庭任务集合中,从而对应每一项技能都有超过 1 万 Clips 规模的数据覆盖,这使得其不只是总体规模的最大,也是单个技能的行业最多

其次是质量、模态的要求,这决定这些数据是否真正能被模型消化理解,而画面的超大 FOV、清晰的画质是基础,保证可以全方位录制到周围的环境和人的操作细节,简智这次数据集合的像素达到 “1600*1296”“30fps” 的水平

在这之上轨迹的精度是数据质量的关键,厘米级的轨迹精度对人来说可能足够精细,但对于机器人来说则需要达到毫米级别,因此简智这次开源数据对比行业,一方面具备了大多数不具备的轨迹信息,同时通过高精度 IMU 硬件和云端重建与还原,进一步将轨迹提升到亚厘米级别。而在模态上,作为夹抓类的技能采集,夹抓的开合角度、位移也都在集合中包含。



而在技能方面,单手在实际场景中可以完成的任务优先,因此难得是在数据集中,99.2% 都是 “双手、长程任务”,这也让它变得更落地—— 以第一批数据为例,平均 clips 长度为 1min37s。这意味着,它记录的不是一张张静态快照,而是从 “拿起散乱 T 恤” 到 “叠放整齐” 的完整过程,是动作逻辑与因果的连续学习。



最后则是在相同技能下,数据的场景、目标泛化上需要足够丰富,人员的操作要足够自然,而非单一场景的重复、动作僵硬重复,这样才能让模型在真实的生活中,应对家庭环境、目标类型千变万化。简智这批数据来自 3000 个真实的家庭规模采集,以叠衣服为例,不同的衣服种类、平铺的位置等多重因素变量都包含在其中,弥补了传统 “数采工厂” 方案过于单一的问题。



为什么有底气开源这么大批量数据?

在这些大规模、高质量、泛化程度高数据的背后,其实一套完整的 “数据生产链条”,在这方面简智也有自己的一套方法论,完成从采集设备到云端平台,再到数据的二次迭代的闭环,这也使得简智在 2 个月时间内就积累了近百万小时规模的数据。



这其中,Gen DAS Gripper是能完成简智规模化采集的首要触点,它相比传统的数据采集、UMI 等方案来看,可以更容易、快速地部署,不需要做任何的场地布置;同时全栈自研的 ISP 图像处理、CMOS 传感器,保证图像高质量、清晰。

同时可以做到基于车规级 IMU、双手设备同步,实现双手技能的高精度坐标对齐,异构数据时间误差小于 1ms

在设备端,具备超强压缩能力:将数据体积压缩至原大小的 2%,同时打通在线上传通道,实现分钟级快速上传,大幅提升数据流转效率。

Gen Matrix 则是中枢数据平台,它将收集后数据进行高精准的轨迹还原、对齐、清洗处理:将众多分散设备数据收集,超强轨迹还原、环境重建能力,轨迹真值误差小于 1cm,并将异构数据进行同步与清洗,保证数据质量,并具备自动化标注、切片等进阶能力,可以高并发处理海量数据源。这在具身行业也是领先的数据平台基建。

Gen ADP(AI Data Pipeline)则是规模化、自动化数据产线,它是将 DAS 的数据完成自动化的脉搏。它将标注、加工流程自动化,让高质量数据的产出像流水一样持续、高速,2h 内完成采集与处理全过程。目前据简智公开信息,已经完成百万小时规模数据累计,并且每天以接近万小时规模增长



开源是一件需要持续做、加速做的事情

具身智能的未来,建立在高质量数据的基石之上。在今天来看,大家对于数据的格式、规范还尚不成熟,这大大的影响了模型方案的进步速度,因此开源数据持续、加速推进,能快速填补数据鸿沟、统一技术标准、降低研发门槛、推动生态协同与自主可控,最终加速具身智能从实验室走向规模化落地。

10Kh RealOmni-Open DataSet的开放,不仅是一份海量数据资源,更是一种通过共享加速创新的可能性。简智团队后续将继续加强数据基建建设,推出更多行业有益的数据、服务,形成 “数据共享 — 模型优化 — 场景落地 — 数据反哺” 的正向循环。

来源:https://www.163.com/dy/article/KIK08BRA0511AQHO.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

OpenClaw人人养虾接入Matrix平台操作指南
AI资讯
OpenClaw人人养虾接入Matrix平台操作指南

Matrix 是一种开放且去中心化的即时通讯协议,允许用户自主部署私有服务器并接入全球 Matrix 联邦网络。OpenClaw 网关通过集成 Matrix 的 Client-Server API,实现与这一分布式通信生态的无缝对接。 前置准备 在配置 OpenClaw 连接 Matrix 之前,请

热心网友
05.20
阿里官方揭秘欢乐马项目源自ATH郑波团队
AI资讯
阿里官方揭秘欢乐马项目源自ATH郑波团队

周二晚间,AI领域迎来了一则重磅消息。在权威AI评测平台Artificial Analysis的榜单上,一个名为「HappyHorse-1 0」的神秘模型异军突起,一举登顶视频生成能力排行榜,引发了业界的广泛关注与热议。 这一成绩极具含金量。无论是文本生成视频,还是图像生成视频,HappyHorse

热心网友
05.19
世界模型AI直播预约开启引爆人工智能新浪潮
AI资讯
世界模型AI直播预约开启引爆人工智能新浪潮

当AI开始学会“脑补”物理世界的运行规律,并尝试模拟一个动态变化的真实环境时,我们距离那个传说中的通用人工智能(AGI)究竟还有多远? 进入2026年以来,“世界模型”毫无悬念地成为了科技圈最炙手可热的核心议题。它标志着一个关键的范式转变:人工智能正从被动地“感知当下”,迈向主动地对时空与动态变化进

热心网友
05.19
世界模型第二期直播预约AI技术前沿与应用解析
AI资讯
世界模型第二期直播预约AI技术前沿与应用解析

上周三关于“世界模型”的线上沙龙反响空前热烈,这充分表明,从被动感知迈向主动推演,这条被视为实现通用人工智能(AGI)的核心技术路径,正深度吸引着整个AI行业的关注。鉴于持续高涨的讨论热度,我们决定加开一场深度分享会。 那么,这条充满潜力却又极具挑战性的前沿赛道,目前进展到了何种阶段?顶尖的研究者们

热心网友
05.19
许哲诚计算性设计展演评析:数字逻辑与物质建构的生成境域
科技数码
许哲诚计算性设计展演评析:数字逻辑与物质建构的生成境域

数字逻辑与物质建构的深度对话 ——评许哲诚“境域·生成”计算性设计展演 □ 丁雅力(江苏省美术馆策展人) 当代设计与造物的核心范式,正经历着由计算性设计带来的深刻变革。2026年3月20日,南京艺术学院教师许哲诚于南京莫玄空间呈现的“境域·生成”个人专场展演,正是这一前沿趋势的集中体现。本次展览超越

热心网友
05.18

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

企业网络安全等级保护合规指南:龙虾养殖业如何落地实施
AI资讯
企业网络安全等级保护合规指南:龙虾养殖业如何落地实施

摘要由实在Agent通过智能技术生成。此内容由AI根据文章内容自动生成,并已由人工审核。 随着企业数字化转型进入智能体(Agent)驱动的新阶段,如何平衡AI创新与安全合规成为关键挑战。尤其在《网络安全等级保护基本要求》(等保2 0)的严格框架下,企业级智能体的部署必须同时满足效率提升与合规保障的双

热心网友
05.23
外贸业务员年终总结PPT制作指南 AI高效提升总结效果
AI教程
外贸业务员年终总结PPT制作指南 AI高效提升总结效果

使用情景 对于外贸从业者来说,年终总结绝非简单的例行汇报。它是一次至关重要的年度复盘与战略规划,既要系统梳理过去一年的业绩成果与经验得失,也要为来年的市场开拓与业务增长指明清晰路径。在全球贸易竞争白热化的今天,一份逻辑严谨、数据详实、洞察深刻的总结报告,不仅是个人专业能力的集中体现,更是赢得管理层支

热心网友
05.23
WPS AI一键生成年度安全工作总结PPT高效制作专业汇报
AI教程
WPS AI一键生成年度安全工作总结PPT高效制作专业汇报

使用情景 又到年末了,年度安全工作总结是每个团队都绕不开的环节。这份总结的价值,远不止于一份简单的回顾。它更像是一份“体检报告”,清晰地告诉你过去一年安全工作的“健康状况”——哪里做得好,哪里还有隐患,从而为来年的精准施策打下坚实的基础。 不过,说起写总结、做PPT,不少人就开始头疼了:内容怎么组织

热心网友
05.23
ZEC价格暴涨520%后还能买吗 深度解析Zcash未来走势与投资潜力
web3.0
ZEC价格暴涨520%后还能买吗 深度解析Zcash未来走势与投资潜力

Zcash (ZEC) 月度暴涨520%:深度解析后市行情与关键点位 近期,隐私币龙头Zcash (ZEC) 上演了一场令人瞩目的行情,月度涨幅高达520%,价格一度逼近300美元,创下自2021年12月以来的新高。在加密市场整体承压的背景下,ZEC的逆势狂飙吸引了全球投资者的目光。本文将结合技术分

热心网友
05.23
电商售后数据自动汇总分析流程与智能化方案详解
AI资讯
电商售后数据自动汇总分析流程与智能化方案详解

在存量竞争的时代,电商售后数据早已超越了“成本中心”的单一角色,它正成为洞察产品质量、优化物流链路、提升用户忠诚度的核心战略资产。然而,现实往往骨感:多平台、多店铺、多套ERP系统并存,数据散落一地。靠人工手动汇总?不仅耗时费力,更关键的是,你永远无法实现真正的实时预警与敏捷响应。那么,电商售后数据

热心网友
05.23