来源:环球网
【环球网科技综合报道】1月30日,宇树科技宣布开源其最新模型UnifoLM-VLA-0。

据介绍,UnifoLM-VLA-0是其UnifoLM系列中,面向通用人形机器人操作而开发的视觉-语言-动作大模型。该模型旨在突破传统视觉语言模型在物理交互中的局限,通过在机器人操作数据上持续进行预训练,实现了从通用“图文理解”向具备物理常识的“具身大脑”的演进。
该模型在多种任务场景下展现出显著增强的空间推理能力与可靠的多模态感知性能。针对操作类任务中对指令理解和空间感知的高要求,模型通过持续预训练深度融合了文本指令与二维、三维空间细节,增强了模型的空间感知能力。此外,通过构建全链路动力学预测数据,模型具备了更好的任务泛化性能。在真机验证中,仅需单一策略即可高质量完成12类复杂的操作任务。
