首页 游戏 软件 资讯 排行榜 专题
首页
AI
卢宗青团队推出通用机器人模型 人类先验实现动作对齐

卢宗青团队推出通用机器人模型 人类先验实现动作对齐

热心网友
14
转载
2026-05-16

如果说过去几年大模型革命解决的是“机器能否理解与表达”,那么机器人行业真正要攻克的核心难题,则在于更深一层:机器能否在物理世界中,将感知与决策转化为精准、稳定的连续动作,并在长期、复杂、充满不确定性的真实场景中保持可靠执行。

具身智能的真正挑战,从来不是完成一次完美的实验室演示,而在于当环境改变、物体更换、硬件平台差异或任务链条延长时,系统能否依然稳健工作。现实中,机器人策略的通用化与实用化,面临三大结构性瓶颈。

第一是形态割裂。机械臂、二指夹爪、多指灵巧手、人形上肢等不同形态的机器人,其关节定义、自由度、动作空间存在本质差异,导致数据与模型难以互通。一个训练好的策略往往绑定特定硬件,更换平台几乎意味着从零开始。

第二是数据成本与覆盖度瓶颈。真实机器人数据采集昂贵、规模有限、场景分布狭窄,难以覆盖长时序任务、复杂物理交互以及多样化物体操作,更无法支撑跨形态的泛化学习。

第三是部署系统的稳定性缺失。许多视觉-语言-动作模型在仿真或离线评测中表现优异,但一旦部署到真实机器人,控制频率不匹配、动作抖动、误差累积、多臂协同冲突等问题便会暴露。这并非模型智能不足,而是缺乏面向真实闭环控制系统的鲁棒性机制。

因此,行业表面在竞逐更高的基准测试分数,但深层的竞争已转向另一维度:谁能训练出真正通用的机器人策略,并将其稳定、可靠地部署到多样化的真实硬件上,谁就更可能跨越从实验室研究到产品化落地的关键门槛。

在此背景下,智在无界创始人卢宗青团队发表的论文《Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization》,提出了一条更贴近工程闭环的通用机器人操控技术路径。

其核心思路并非简单堆砌更大模型或更多数据,而是从根本问题出发:通过以人类为中心的大规模操控数据建立跨形态的动作先验;通过统一的状态-动作空间解决不同硬件之间“语言不通”的障碍;再结合更强的动作生成模型与面向真实系统的稳定部署机制,系统性地回答一个关键问题:通用机器人策略能否在多种形态的平台上稳定工作,并真正实现落地部署?

通用性能逼近专用

这项工作的实验价值,不在于简单宣称更高的成功率,而在于围绕一个核心命题进行验证:单一模型能否同时学会操控不同形态的机器人(甚至包括模仿人手动作模式),并且在真实机器人部署时,依然保持高稳定性与可靠性。

为此,研究团队将实验结果分为三类呈现:真实机器人实验、仿真基准测试和消融实验分析。

在真实机器人实验中,研究人员设定了两种模型配置。一种是Being-H0.5-specialist(专用型),针对特定机器人进行深度优化与对齐,旨在追求该平台上的极致性能。另一种是Being-H0.5-generalist(通用型),要求同一个模型适配多种机器人形态,目标是验证其跨平台泛化与迁移能力。

总体结论显示,专用型模型的综合性能最优,而通用型模型的表现与之差距很小。关键在于,两者在许多任务类别上的表现非常接近,尤其是在那些依赖通用技能、动作模式相似的任务上,性能几乎持平。

进一步,研究团队将真实机器人任务按能力需求划分为空间类任务、长程任务、双臂协同任务和泛化任务。结果发现,Being-H0.5相比基线模型π0.5的性能提升,在长程任务和双臂任务中最为显著。

这一点至关重要。长程任务通常包含多个连续步骤,微小的动作误差会不断累积,极易导致后续失败;而双臂任务需要两只机械臂实时协调,对动作时序同步与空间耦合要求极高。因此,这两类任务最能检验策略是否具备真正可部署的长期稳定性。

此外,研究还观察到一个有趣现象:在某些任务中,例如清理桌面这类涉及容器整理和物品收纳的交互场景,通用型模型的表现有时甚至接近或超过专用型模型。直观来看,这类任务需要反复调用抓取、移动、放置等通用子技能。通用型模型由于在更多机器人形态和更多任务中学习过类似的动作结构,往往表现得更稳健。相比之下,专用型模型虽然对单一机器人优化更深,但也可能对某些特定动作习惯产生过拟合。

在关键的消融实验中,研究团队重点分析了UniHand-2.0预训练的必要性。结论表明,对于专用型模型,即使没有这项预训练,也能通过后续的机器人微调获得相当能力。但对于通用型模型而言,如果缺少UniHand-2.0预训练,则会出现明显的性能下降,在多机器人混合学习中更容易表现出能力不足或行为不稳定。

这说明,UniHand-2.0的作用不仅仅是扩大数据规模,更是为训练过程提供了一种跨形态共享的操控“先验”,让模型能够理解合理动作的分布规律,从而更高效地吸收来自不同机器人形态的动作数据。为支撑这种跨形态操控能力学习,研究团队构建的UniHand-2.0数据集总规模超过35,000小时,包含1200亿令牌和4亿样本,融合了人类第一视角手部操作数据(16K小时)、覆盖30种机器人形态的机器人操控数据(14K小时),以及视觉语言理解数据(约5K等效小时),为模型提供了丰富的动作先验与语义对齐基础。

在仿真基准测试中,Being-H0.5在LIBERO基准上取得了强劲表现,平均成功率达到98.9%,在更具挑战性的长程子集LIBERO-Long上也达到了97.4%,且仅使用224×224的RGB图像输入。

考虑到LIBERO基准具有多任务、多场景以及显著的长程操作链特点,如此接近99%的成功率表明,模型不仅能够执行动作,还具备了很强的任务稳定性、闭环纠错能力以及对序列动作结构的学习能力。

此外,在更贴近真实家庭场景的RoboCasa厨房任务基准(包含24个任务,涉及多物体、多容器及频繁接触交互)中,Being-H0.5在整体对比中同样领先多个基线方法(包括部分基于3D信息的方法)。这说明模型不仅在桌面任务上有效,也能在更复杂的家庭操作场景中保持较强性能,在RoboCasa基准上取得了53.9%的成功率。

最后,在部署相关实验中,研究团队强调,模型的真实可用性不仅取决于训练策略,也极度依赖部署系统的稳定性。因此,他们引入了MPG(动作流形引导)和UAC(统一异步控制器)两个关键机制。MPG的作用是抑制不合理的动作输出,使动作保持在合理分布的“流形”附近;UAC则用于解决感知帧率与控制频率不同步带来的时序问题。

消融结果显示,一旦移除MPG和UAC,长程任务的性能下降最为明显,双臂任务也会显著变差,更容易出现抖动、犹豫或过度修正等现象。这一结果说明,部署时的稳定性机制对长程和双臂任务的可靠执行至关重要。这也体现了这项工作与许多只关注离线评估或仿真成功率的研究不同,它更重视解决真实部署系统中的时序同步和动作稳定性问题。

对齐与生成并重

为实现上述效果,研究团队主要设计了五个阶段的工作:训练数据体系构建、跨形态动作对齐、模型训练架构设计、下游评估验证以及消融实验分析。

首先,在数据构建阶段,研究人员搭建了UniHand-2.0数据集。这套数据并非传统意义上只收集机器人数据,而是融合了三类来源:人类第一视角手部操作数据(16K小时)、覆盖30种机器人形态的机器人操控数据(14K小时),以及视觉语言理解数据(约5K等效小时)。UniHand-2.0总规模超过35,000小时,包含1200亿令牌和4亿样本,为跨形态操控能力学习提供了扎实的数据基础。

这样设计的核心动机,是为了缓解真实机器人数据昂贵、稀缺且覆盖有限的问题。同时,利用人类手部动作数据的丰富性与自然性,可以提供更大规模的操控先验;再通过视觉语言模型数据补齐语言理解与场景语义的能力缺口,从而形成面向操控任务的多模态预训练材料库。

其次,在跨形态对齐阶段,这项工作引入了统一状态-动作空间,以解决不同形态动作空间不一致带来的训练困难。例如,人手关节空间与机器人关节空间不同,不同机器人之间的动作维度也存在差异,若直接拼接动作进行训练,会导致模型混乱。

为此,研究人员将不同形态的状态与动作映射到统一的状态-动作空间,使模型学习通用的操控语义,而非某一种硬件的具体关节角度,从而实现跨机器人的知识共享与迁移。

在模型训练架构上,研究团队采用了混合专家(MoT)与混合流(MoF)的组合,使模型同时具备理解能力与动作生成能力。其中,理解专家负责处理图像与语言信息,形成任务意图表示;动作专家负责输出连续动作与长序列控制。通过混合流(MoF)来提升动作生成的表达能力,最终形成了Being-H0.5模型体系。

随后,在下游评估阶段,研究人员采用真实机器人与仿真基准相结合的方式进行验证。仿真部分在LIBERO和RoboCasa上进行,以保证可复现性与横向对比性;真实机器人部分则用于检验闭环控制表现,以及在硬件噪声、时序不同步与误差累积条件下的部署稳定性。通过专用型与通用型的对比,进一步衡量通用模型带来的性能代价。

最后,在消融实验中,研究团队从三方面验证了关键设计的有效性:去掉UniHand-2.0预训练,以检验以人为中心的预训练对通用型模型的必要性;去掉MPG与UAC,以评估部署稳定性机制是否关键;通过冻结不同层数,探索全量更新与部分更新在性能与稳定性上的差异。从而更系统地分析模型能力来源与关键模块的贡献。

从研究走向落地

从实验意义来看,这项工作的结果为通用机器人策略的发展提供了关键证据与可行路径。

首先,它证明了跨形态统一动作学习是可行的。传统机器人学习往往是一个模型只适配一种硬件,换机器人就要重训,数据也难以共享,导致训练成本高、复用效率低。而这项实验结果表明,只要实现动作空间的统一,并配合足够强的预训练,让多机器人共享同一套策略是能够做到的。并且,通用型模型的性能只比专用型略低,甚至在不少任务上接近。这直接提升了机器人基础模型路线的现实可行性。

其次,这项工作强调,人类手部视频与动作数据并非辅助,而是通用策略的“底座”。消融实验显示,UniHand-2.0中以人类为中心的预训练,是通用型模型保持稳定能力的关键因素。这意味着,人类动作数据为策略提供了更合理、更自然的动作先验,从而增强了其泛化能力与跨机器人迁移能力。同时,UniHand-2.0庞大的数据规模也说明,这种人类中心预训练具备足够的数据支撑。

第三,工作指出了机器人智能的真正难点在于可部署的长程稳定性,而不仅是离线或仿真的成功率。许多视觉语言动作模型在仿真中表现不错,但部署到真实机器人时,容易出现抖动、动作发散、延迟累积导致失败,甚至双臂互相干扰。研究通过MPG与UAC的实验结果说明,要让基础策略真正可部署,必须显式地解决动作分布约束与异步控制问题,使策略在真实系统中保持稳定可靠。

最后,研究也提供了一个较清晰的通用模型训练范式:通过大规模人类中心数据建立操控先验,通过统一状态-动作空间实现跨形态对齐,通过更强的动作生成建模能力提升控制表达,并结合稳定部署机制提高真实环境下的执行可靠性。

整体来看,它不是依靠某一个单点技巧,而是从数据、对齐、生成到部署稳定性,进行了端到端的全链路构建。因此,这套方法更具备可扩展性,也更接近通用机器人操控智能的未来发展方向。

研究背后的科研团队

这项研究由智在无界创始人卢宗青团队主导。卢宗青是北京大学计算机学院长聘副教授,国家青年人才,北京智源学者。其主要研究方向包括强化学习、多模态大模型和具身智能,在相关领域顶级会议和期刊上发表论文100余篇,并担任ICML、ICLR、NeurIPS等机器学习顶级会议的领域主席。该研究工作获得了国家自然科学基金原创探索项目的资助。

来源:https://www.leiphone.com/category/academic/iV136Ct6iGvws0Ut.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

双阶段方案让虚拟图像骗过AI眼睛游戏画面以假乱真
AI
双阶段方案让虚拟图像骗过AI眼睛游戏画面以假乱真

你是否好奇,游戏《GTA》中飞驰的汽车与现实中监控摄像头拍下的车辆,在人工智能的“视觉系统”里究竟有多大差别?尽管现代游戏画面已极为逼真,光影、材质与场景构建都栩栩如生,但对于自动驾驶、交通监控、智慧城市管理等需要落地应用的AI算法而言,虚拟游戏图像与真实世界照片之间,依然横亘着一道肉眼难以分辨、却

热心网友
05.16
港大与京东探索院联手优化视频AI四步提升实用体验
AI
港大与京东探索院联手优化视频AI四步提升实用体验

这项由香港大学、京东探索研究院、清华大学、北京大学和浙江大学联合完成的研究,以技术报告形式发布于2026年4月,论文编号为arXiv:2604 25427,有兴趣深入了解的读者可通过该编号查询完整原文。 你是否曾尝试用AI生成视频,却对结果感到失望?画面与描述不符、人物肢体扭曲、场景光影闪烁,最终视

热心网友
05.16
数据表描述不一致导致AI检索失败?伦斯勒理工与亚利桑那州立大学提出修复方案
AI
数据表描述不一致导致AI检索失败?伦斯勒理工与亚利桑那州立大学提出修复方案

2026年4月,一项由伦斯勒理工学院与亚利桑那州立大学联合开展的研究,在arXiv预印本平台发布(编号:arXiv:2604 24040v1),系统性地揭示并量化了AI表格检索领域一个长期存在的“盲点”——表格序列化格式对检索性能的巨大影响。 一、格式不同,AI就“认不出”同一张表格了? 设想一个典

热心网友
05.16
腾讯混元AI新突破:实时自适应系统取代传统固定模型
AI
腾讯混元AI新突破:实时自适应系统取代传统固定模型

腾讯混元团队提出新方法,使模型在推理时能根据输入动态生成参数,实现实时适配。实验表明,该方法在图像编辑任务中效果显著,能有效处理冲突需求,并在多项评测中领先,推动了智能模型从静态向动态演进。

热心网友
05.16
北大林宙辰团队ICLR 2026研究:基于最优传输的时序预测模型训练方法
AI
北大林宙辰团队ICLR 2026研究:基于最优传输的时序预测模型训练方法

北京大学团队提出DistDF损失函数,基于最优传输理论对齐预测与真实标签的联合分布,规避传统逐点损失中的独立性假设,实现无偏训练。该方法能有效捕捉序列整体形态与结构,兼容多种模型,在实验中展现出更优性能。

热心网友
05.16

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

鬼泣动画主创回应识质存在动画化计划最新进展
游戏资讯
鬼泣动画主创回应识质存在动画化计划最新进展

知名制作人阿迪·尚卡尔透露,在卡普空发布新作后,他收到大量粉丝请求,希望将科幻游戏《识质存在》动画化。他认为该游戏因“不寻常且原创性十足”而备受关注。但目前他并无改编计划,而是选择专注于全新的原创项目,以探索更多叙事可能性。

热心网友
05.16
班迪与油印机新手攻略 操作技巧与通关玩法详解
游戏资讯
班迪与油印机新手攻略 操作技巧与通关玩法详解

《班迪与油印机》是一款融合平台跳跃与解谜的冒险游戏。攻略从基础操作讲起,详细介绍了前八关的核心玩法与技巧,包括利用特殊动作通过地形、应对各类机关与Boss战策略。游戏过程中可收集资源以升级能力,探索隐藏区域。其关卡设计富有创意,难度较高,但攻克后能获得显著成就感。

热心网友
05.16
异环赛车任务攻略:高效跑赢白杨的技巧解析
游戏攻略
异环赛车任务攻略:高效跑赢白杨的技巧解析

在《异环》游戏中,获取那台备受瞩目的AE86幽灵车外观,关键在于完成白杨的支线赛车挑战。许多玩家在此环节遇到困难,感觉对手速度难以超越。实际上,掌握正确技巧后,赢得比赛并不复杂。 异环白杨赛车任务通关技巧详解 获胜的核心策略可以总结为:把握弯道优势,主动实施碰撞。 白杨的车辆起步与直线加速性能确实出

热心网友
05.16
星星益智果酱怎么玩 游戏玩法与特色全解析
游戏攻略
星星益智果酱怎么玩 游戏玩法与特色全解析

《星星益智果酱》是一款即将上线的休闲手游,玩法简单直观。游戏通过介绍与实机画面展示核心内容,帮助玩家快速了解其特色与乐趣。

热心网友
05.16
抗性忽视机制详解与实战通关数据全解析
游戏攻略
抗性忽视机制详解与实战通关数据全解析

心魔15层需冰抗180、火抗220以应对高额元素伤害,并把握BOSS施法前摇。16层需优先集火“魅惑魔灵”以防混乱,并稳妥处理高伤“穿刺者”。17层需兼顾元素区域走位与快速击破回血核心,考验团队输出与生存综合能力。这三层逐级挑战生存、节奏与整体实力。

热心网友
05.16