新京报贝壳财经讯(记者韦博雅)12月18日,北京人形机器人(以下简称“北京人形”)创新中心正式开源了国内首个,也是唯一一个通过具身智能国标测试的具身VLA大模型XR-1,并同步开源了配套的数据基础RoboMIND 2.0及ArtVIP最新版本。基于此次开源成果,将有力推动具身智能行业回归本质需求,让机器人真正能在各类应用场景下“干得了活、干得好活”,助力国内具身智能产业迈向“全自主、更好用”的新阶段。
本次开源的系列核心成果,主要包含面向具身“小脑”能力的VLA模型XR-1,以及为XR-1等模型提供数据训练支持的RoboMIND 2.0与ArtVIP平台。
北京人形介绍,跨本体VLA模型XR-1具备多场景、多本体、多任务的通用特性,并拥有高泛化性等显著优势。其背后的技术核心在于,XR-1构建了跨数据源学习、跨模态对齐、跨本体控制三大关键支柱能力。首先,通过跨数据源学习让机器人能够利用海量人类视频进行训练,有效降低了训练成本,提升了学习效率;其次,依托跨模态对齐能力,它能打破视觉与动作之间的壁垒,让机器人实现真正的“知行合一”;最后,借助跨本体控制技术,XR-1可以快速适配不同类型、不同品牌的机器人本体。
北京人形首创的UVMC(多模态视动统一表征)技术是其中的关键,它能够搭建起视觉与动作之间的映射桥梁,让机器人将看到的画面瞬间转化为身体的本能反应,像人类条件反射般自然地做出正确的应对动作。XR-1的多构型预训练能力,使“具身天工2.0”具备了全身多关节丝滑拟人控制能力,可实现大幅弯腰下蹲并精准抓取随机摆放的物料箱,完成复杂的倒料任务。
RoboMIND 2.0则在此前版本基础上进行了全面升级。机器人操作轨迹数据已增加至30多万条,覆盖场景拓展至工业零拣、流水线设备、物化实验室、家庭厨房、家电交互等在内的11个工业、商用及家庭场景,机器人本体、任务与技能数量也均有2倍以上的提升。同时,平台新增了1.2万多条带触觉操作数据,可用于训练VTLA、MLA模型,亦能用于训练机器人大小脑模型,并开源了基于ArtVIP生成的大量仿真数据。
编辑 岳彩周
校对 卢茜
