北大团队突破通用抓取技术,单条演示适配所有灵巧手
北京大学与BeingBeyond团队联合推出了DemoGrasp框架——一套简洁高效、适用于通用灵巧手抓取任务的学习方案。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
在灵巧手通用抓取的研究中,因为动作空间维度复杂、任务涉及长距离探索且需要适应多样化物体,传统强化学习方法常常陷入探索效率低、奖励函数设计复杂等困境。
针对这些挑战,北大与BeingBeyond团队提出了DemoGrasp框架:
一种既简单又高效的灵巧手通用抓取学习方法。

该方法以一次成功的抓取演示轨迹为基础,通过对轨迹中的机器人动作进行智能编辑,灵活适应不同物体与摆放姿态:通过调整腕部位姿来精准确认“抓取位置”,通过微调手指关节角度来优化“抓取方式”。
这一核心创新——将原本多步决策的马可夫过程重构为基于轨迹编辑的“单步MDP”,显著提升了强化学习在抓取任务中的学习效率和真实环境迁移性能。

核心设计:单条演示 + 单步强化学习
从“多步探索”到“全局编辑”
传统强化学习的困境:高维动作空间中复杂的探索难题
动作空间:每一步都需要控制高自由度机器人的所有关节指令。奖励设计:需要设计复杂的密集奖励函数,引导机器人避开碰撞、成功抓取并完成平滑运动。课程学习:需设计复杂的多阶段学习流程,帮助强化学习克服探索瓶颈。
DemoGrasp 的核心创举在于用“单条成功演示轨迹”替代“从零开始的探索”,将高维抓取任务转化为“演示编辑任务”,再通过单步强化学习优化编辑参数,最终结合视觉模仿学习完成虚拟到实机的迁移。

单条演示和轨迹编辑
一条抓取特定物体的成功轨迹,实际上蕴含了抓取任务通用的行为模式(例如“靠近物体→闭合手指→抬起手腕”),只需微调轨迹中的手腕和手指抓取方式,便能适配从未见过的新物体。
DemoGrasp仅需对一个物体(比如一个方块)采集一条成功抓取演示,即可通过物体中心的轨迹编辑,生成针对新物体、新位置的成功抓取策略:
腕部姿态编辑:在物体坐标系下,对原始轨迹中的每一个手腕位置点施加一个统一的变换,灵活调整手腕抓取方向和位置,适应不同大小、形状物体的合适抓取点。手指关节编辑:对手指的抓取关节角度施加一个增量,通过与演示轨迹的等比例插值,生成灵巧手从初始张开状态平滑到达新抓取姿态的动作轨迹。
单步强化学习
在仿真环境中,DemoGrasp利用IsaacGym创建了数千个并行世界,每个世界里都有不同的物体和随机摆放场景。
学习过程:每一个仿真世界中,策略网络根据初始观测(末端姿态和物体点云、位姿)输出一组手腕和手指编辑参数,执行编辑后的轨迹,根据执行过程中是否“抓取成功”和是否“发生碰撞”获得相应奖励。
通过海量试错和在线强化学习,策略学会根据不同的物体观测,输出恰到好处的编辑参数。
训练效率:在这个紧凑动作空间的单步MDP问题上,DemoGrasp使用单张RTX 4090显卡仅需训练24小时即可收敛至超过90%的成功率。
视觉蒸馏,虚实迁移
仿真中的强化学习策略依赖于精确的物体点云和位姿,这在现实中难以获取。DemoGrasp通过视觉模仿学习,将策略蒸馏成与真机对齐的RGB策略,实现从仿真到真机的直接迁移。
数据采集:在仿真中运行强化学习策略,记录下上万条成功轨迹:包括渲染的RGB图像、每一时刻的机器人本体感知和关节角度动作。
模型训练:采用流匹配生成模型的学习方法,学习从图像观测和机器人本体感知预测动作。
为缩小仿真到真机的视觉图像差异,训练还使用了预训练的ViT提取图像特征,并在仿真数据收集时充分地进行了域随机化(随机化光照、背景、物体颜色纹理、相机参数等)。
多模态适配:DemoGrasp适配单目/双目、RGB/深度相机等多种相机观测。
实验表明,双目RGB相机组合的效果最佳,能够更好利用纹理和轮廓等信息成功抓取小而薄的物体。
实验结果:仿真和真机双优,全面提升灵巧抓取的泛化性和扩展性
DexGraspNet是灵巧抓取领域的权威数据集(3.4K+物体)。
DemoGrasp在该数据集上使用Shadow Hand抓取,性能显著优于现有方法:视觉策略成功率高达92%,训练集到测试集的泛化差距仅为1%,且适应大范围物体位置随机化(50cm×50cm)、具备更强空间泛化能力。

跨本体扩展:适配任意灵巧手和机械臂本体

DemoGrasp无需调整任何训练超参数,成功适配6种不同形态的灵巧手(五指、四指灵巧手,三指夹爪和平行夹爪等),在175个物体上训练后,在多个未见过的物体数据集上达到了84.6%的平均成功率。
高性能的虚实迁移
在真实机器人测试中,使用Franka机械臂和因时灵巧手,DemoGrasp成功抓取了110个未见过的物体。
在常规大小物体分类上,DemoGrasp成功率均达到90%以上;
对于扁平物体(手机壳、剪刀等)和小物体(瓶盖、小黄鸭等)这类困难抓取任务,策略能够准确抓取物体、避免碰撞,成功率保持在70%左右。

DemoGrasp框架还展现出对复杂抓取任务的扩展能力,支持在杂乱多物体摆放的场景下实现用语言指令引导抓取,且达到84%的单次抓取成功率。即使面对光照、背景和物体摆放的大幅变化,策略的成功率依然保持稳定。

DemoGrasp开创了融合少量人类演示实现高效机器人强化学习的新路径,将成为未来功能性抓取、工具使用、双手操作等更多灵巧手任务的强大基础。
训练时策略的闭环能力是当前方法的一个局限,后续研究将通过对演示轨迹更细粒度的拆分,增强强化学习策略的实时调整与容错恢复能力。
此外,DemoGrasp可以结合多模态大模型,实现开放场景下的自主抓取智能体。
项目主页:https://beingbeyond.github.io/DemoGrasp/
论文:https://arxiv.org/abs/2509.22149
相关攻略
Cardano (ADA) 2026年价格预测:AI深度解析与增长路径 在瞬息万变的加密市场,人工智能分析正成为洞察未来趋势的关键工具。近期,由Grok AI模型发布的Cardano(ADA)2026年价格预测引发了广泛关注,其大胆展望ADA或有望触及两位数美元价格。这不仅彰显了AI数据分析的潜力,
京东“全民养虾计划”:开启AI助手体验新纪元 科技领域近期迎来一场别开生面的创新活动:京东正式推出“全民养虾计划”。表面看,它与美食相关,实际上是一场针对AI智能体技术普及的宏大实验。该计划通过“购买AI硬件、赠送专业安装服务与趣味小龙虾”的组合策略,为当前热门的开源AI智能体——OpenClaw,
以太坊资本外溢:TRON为何成为15 2亿美元稳定币新枢纽? 区块链世界的地壳运动从未停止,资本的流向便是其中最敏锐的震感。近期,一场规模惊人的资本迁徙正在上演:大量资金正从以太坊网络流出,涌入TRON生态。这不仅是简单的资产转移,更是一次深刻的行业风向标,揭示了用户对交易成本、网络效率与应用场景的
自研第一个SKILL:手把手教你开发openclaw自定义技能 当你成功构建好openclaw之后,如何让它真正“智能”起来?关键在于为其开发SKILL——这些技能是openclaw的“内功心法”,决定了它能帮你做什么、做多好。 本文将带你亲自动手,从零开始开发你的第一个openclaw自定义技能,
国产 TOP5 手机厂商被曝联手豆包 打造全新 AI 手机 手机行业再迎重磅 AI 合作!今日,知名数码爆料博主 @数码闲聊站 抛出了“豆包 AI 手机”的议题,并透露其已从内部渠道确认:一家位列国产前五的头部手机厂商,已与字节跳动旗下 AI 产品“豆包”达成深度合作协议。这标志着,AI 手机助理的
热门专题
热门推荐
《全面战争:中世纪3》:经典延续,如何平衡怀旧与创新? 近期,《全面战争:中世纪3》的项目负责人帕维尔·沃伊斯坦然指出,要打造一款真正优秀的续作,绝不能仅仅依赖对前作模式的简单复刻。这一观点引人深思——尽管《中世纪2:全面战争》至今仍在策略游戏爱好者心中占据着经典地位,但开发团队此次显然决心跳出“照
雷鸟X3 Pro斩获AWE艾普兰创新大奖,开启全民AR生活新篇章 在上海新国际博览中心隆重揭幕的2026年中国家电及消费电子博览会(AWE)上,前沿AI科技与未来生活愿景激情碰撞。全球消费级AR领导品牌雷鸟创新,以其里程碑式的表现,定义了行业发展的新方向。 通过“顶尖硬件科技+顶级文化IP”的双轨战
借力AWE2026“一展双区”,MOVA双区协同、震撼登场 备受瞩目的科技盛会——2026年中国家电及消费电子博览会(AWE),于3月12日至15日在上海盛大举办。本届AWE展会首次创新采用“一展双区”的展览模式,主会场位于上海新国际博览中心,分会场则设于上海东方枢纽国际商务合作区,两大展区高效联动
冰结师技能全解析 踏入2026年,《地下城与勇士》中的冰结师职业,其技能体系已构建得更为成熟与强大。无论是在副本中高效清理海量怪物,还是在决斗场与高手玩家周旋,这个职业都能凭借其独特的冰霜艺术掌控战局。刷图时,酷寒的范围法术可瞬间清屏;而在PVP竞技中,一套将冻结控制与瞬间爆发完美衔接的连招,往往让
iPhone 18 Pro系列模具不变,屏幕形态将与iPhone 17 Pro保持一致 备受期待的屏下Face ID组件小型化设计与灵动岛区域缩窄方案,预计将被推迟至后续迭代机型中正式应用。 近期,关于iPhone 18 Pro系列的技术传闻持续引发行业关注,尤其在显示与解锁设计领域传言甚多。多方消





