首页 游戏 软件 资讯 排行榜 专题
首页
AI
NUS邵林团队T(R,O) Grasp实现5FPS动态灵巧抓取刷新SOTA

NUS邵林团队T(R,O) Grasp实现5FPS动态灵巧抓取刷新SOTA

热心网友
43
转载
2026-05-20

灵巧手抓取是机器人实现复杂操作任务的核心技术。近年来,深度学习推动了该领域的快速发展,形成了三大主流技术路线:以机器人为中心、以物体为中心和以交互为中心的方法。

机器人中心方法直接学习从观测数据(如点云、图像)到动作指令的映射。其优势在于推理速度快,但存在样本效率低、泛化能力弱的问题,更换机械手往往需要重新训练模型。

物体中心方法专注于预测物体表面的理想接触点或接触热力图,具有较好的泛化性。然而,该方法需要复杂的后续处理来反推关节运动,且对观测信息的完整性依赖较高,在信息缺失时表现受限。

此前,D (R,O) Grasp 提出了一种交互中心的距离矩阵表征,改善了泛化性与推理效率。但该方法计算开销巨大,且效果严重依赖初始手部姿态的合理性,难以支撑大规模模型构建。

那么,是否存在一种兼具强大表达能力与高效轻量特性的新方法?T (R,O) Grasp 正是为此提出的创新解决方案。

图片

该研究提出使用 T (R,O) 图结构作为灵巧手抓取的统一表征。它将物体与机械手关节的几何拓扑信息编码为图节点,并将其相对位姿关系定义为边。如图1所示,相较于传统的距离矩阵,这种图结构提供了更精巧、高效的交互建模方式。

图片

图 1. T (R,O) 图结构与扩散过程

目前,该论文已被机器人领域顶级会议 IEEE International Conference on Robotics & Automation(ICRA 2026)接收。

二、方法:T (R,O) 图的构建与应用

图片

图 2. T (R,O) Grasp 整体框架

给定物体点云与不同机械手的URDF配置文件,T (R,O) Grasp 旨在输出多样且稳定的抓取姿态,并适配多种灵巧手。如图2所示,其工作流程分为三个核心步骤。

2.1 构建 T (R,O) 图结构

图片

图 3. T (R,O) 图结构的构建

此步骤核心是建模物体与机械手间的交互关系。如图3所示:首先,通过预训练的VQ-VAE模型将物体点云编码为一个物体节点。其次,结合机械手关节的几何特征(BPS)与位姿信息,构建一系列关节节点。最后,利用物体节点与关节节点之间、以及关节节点彼此间的相对位姿关系来定义图的边,从而形成一个蕴含丰富空间与拓扑信息的交互图。

2.2 训练图扩散网络并预测关节位姿

获得T (R,O)图后,模型在标准的DDIM(去噪扩散隐式模型)框架下进行训练,对关节位姿执行加噪与去噪过程。其中的去噪器(Denoiser)由多层Transformer构成,具体架构见图4。

图片

图 4. T (R,O) Denoiser 网络架构

得益于DDIM推理时对引导条件的良好支持,T (R,O) Grasp 训练完成后能够灵活生成满足多种约束的抓取姿态。例如,可指定抓取方向或限定物体的特定抓取区域,模型均能生成对应方案。

2.3 通过逆运动学求解最终指令

模型预测输出的是抓取时各关节的位姿矩阵。为获得机械臂可执行的动作指令,需进行最后一步:逆运动学求解。研究利用 Pyroki 工具包高效求解此问题,从而将预测位姿转化为具体的关节角度指令。

图片

三、实验结果:性能与效率的双重验证

研究团队系统评估了 T (R,O) Grasp 在自由生成(无条件)与带约束生成(如指定方向或区域)两种模式下的性能。评估指标涵盖抓取成功率、生成姿态多样性及关键的推理速度。

图片

图 5. T (R,O) Grasp 与 baseline 性能对比

从图5到图8的对比结果清晰表明,无论在无约束还是多种约束条件下,T (R,O) Grasp 的性能均超越现有基线方法。它展现了跨不同灵巧手生成既精准又多样化抓取姿态的强大能力。

图片

图 6. T (R,O) Grasp 在无条件设置下的灵巧抓取

图片

图 7. T (R,O) Grasp 在给定抓取方向下的灵巧抓取

图片

图 8. T (R,O) Grasp 在给定抓取区域下的灵巧抓取

在效率方面表现同样出色。在 NVIDIA 40GB A100 GPU 上,该方法实现了平均5 FPS的推理速度,意味着每秒可处理多个抓取规划任务。这为在动态场景中实现实时、闭环的抓取控制奠定了坚实基础。

仿真成功需真机验证。研究团队将算法部署到 xArm 机械臂平台,并在 XHand 和 LEAP Hand 两款灵巧手上进行了测试。

图片

图 9. T (R,O) Grasp 在 XHand 与 LEAP Hand 上的真实机器人抓取

真实实验结果表明,T (R,O) Grasp 在XHand和LEAP Hand上分别取得了91.0%和90.0%的抓取成功率。更具挑战的是动态环境测试:在运行中的传送带上,算法依然能完成稳定抓取(图10)。这充分验证了其在动态场景下实现闭环抓取的实用潜力与鲁棒性。

图片

图 10. T (R,O) Grasp 在传送带动态环境的真实机器人抓取

总结而言,T (R,O) Grasp 通过引入新颖的图结构表征,在保持强大表达能力的同时,显著提升了灵巧抓取规划的效率和泛化能力。该方法不仅在多项指标上刷新了跨智能体灵巧抓取的纪录,其高达5 FPS的推理速度与在动态场景中的成功演示,都标志着该技术向实际应用迈出了关键一步。

来源:https://www.51cto.com/article/840440.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

高德世界模型基线开源 CVPR 2026挑战赛启动
AI
高德世界模型基线开源 CVPR 2026挑战赛启动

过去两年,从Sora到Veo,再到Cosmos,视频生成模型在“视觉逼真度”这条赛道上飞速发展,生成的画面已足以以假乱真。然而,一个根本性问题始终存在:这些模型真的“理解”了我们所处的物理世界吗?答案很可能是否定的。 事实上,一旦要求这些模型生成涉及机器人操作的视频,诸如“机械臂穿模、物体凭空消失、

热心网友
05.19
中国具身智能全球领先十万小时数据突破PI与英伟达技术壁垒
AI
中国具身智能全球领先十万小时数据突破PI与英伟达技术壁垒

当前,具身智能领域正面临一个关键瓶颈:过度依赖真机遥操作数据来训练机器人模型,这条技术路径的局限性日益凸显。 成本高昂是首要难题——采集一小时的遥操作数据往往需要数百元投入,并且必须搭建专业的动作捕捉环境。采集效率则是另一大硬伤:操作员通过屏幕遥控机械臂,其数据采集速度远跟不上真实生产线的作业节拍。

热心网友
05.19
中国具身智能模型登顶全球榜首开启机器人数据驱动新纪元
AI
中国具身智能模型登顶全球榜首开启机器人数据驱动新纪元

具身智能领域,最近被一群年轻人“刷新”了认知。 当行业还在仿真与现实迁移的课题中探索时,一支由00后主导的团队——灵初智能,选择了一条更直接的路径:用近十万小时的人类真实操作数据,为机器人“喂食”。这个数据量级,即便放在全球视野下,也堪称领先。 目前,业界常用的人类操作数据集多在几千至几万小时,即便

热心网友
05.19
智元远征A3人形机器人发布:续航10小时并支持空中漫步
AI
智元远征A3人形机器人发布:续航10小时并支持空中漫步

人形机器人赛道迎来一位实力强劲的新成员。4月13日,智元机器人正式推出其全新一代全尺寸人形机器人——远征A3。与以往侧重工业或服务领域的机器人不同,这款产品精准定位于一个充满想象力的场景,并打出了“为舞台而生”的鲜明标签。 那么,这台旨在征服舞台、点亮表演的机器人,究竟在哪些方面实现了突破?它又如何

热心网友
05.19
宇树科技对手IPO估值25亿专业机器狗市场前景分析
业界动态
宇树科技对手IPO估值25亿专业机器狗市场前景分析

杭州云深处科技科创板IPO申请获受理,拟募资25 03亿元。公司专注四足机器人B端工业应用,在电力巡检等领域市场份额领先,2025年实现首次盈利。与同行宇树科技侧重消费市场不同,云深处坚持深耕行业场景,其未来发展聚焦算法研发与产业化拓展。

热心网友
05.19

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

算力时代电力价值重估 能源如何支撑数字经济
AI
算力时代电力价值重估 能源如何支撑数字经济

近日,国家能源局联合发改委、工信部、国家数据局正式印发《关于促进人工智能与能源双向赋能的行动方案》。这份重磅文件的核心思路非常清晰:一方面,以坚实的能源基础支撑人工智能(AI)的快速发展;另一方面,利用AI技术赋能能源行业转型升级。其核心目标是推动能源、算力、应用场景、数据与算法模型五大关键要素深度

热心网友
05.20
智谱清影与Runway Gen3视频生成模型对比评测
AI
智谱清影与Runway Gen3视频生成模型对比评测

在挑选文生视频工具时,若您正在智谱清影与Runway Gen-3之间权衡,那么了解两者在生成效果上的具体差异,将有助于您做出更明智的选择。本文将从画质清晰度、细节纹理、运动自然度与视频连贯性等核心维度,通过实测对比为您详细解析。 一、画质与分辨率表现 首先对比硬性指标。智谱清影基于CogVideoX

热心网友
05.20
通义万象制作数据可视化科技背景的实用教程
AI
通义万象制作数据可视化科技背景的实用教程

想用通义万相生成一张科技感十足的数据可视化背景,但出来的画面总觉得少了点“内味儿”?数字界面、粒子流、电路纹理这些关键元素一个不见,画面平平无奇?这通常不是工具的问题,而是提示词没有精准锚定科技可视化的核心要素,或者模型参数没调到最佳状态。别急,下面这几种方法,能帮你把想法精准地“翻译”成画面。 一

热心网友
05.20
Vidu视频慢动作与快进效果制作教程
AI
Vidu视频慢动作与快进效果制作教程

想要在Vidu生成的视频中实现流畅的慢动作或快进效果?虽然模型界面没有提供直接调整播放速度的滑块,但通过巧妙的提示词设计、利用内置功能,或结合后期处理工具,你完全可以精准掌控视频的节奏与时间感。本文将为你详细解析四种实用方法,从生成前到生成后,全方位满足你的创作需求。 一、通过精准提示词引导运动节奏

热心网友
05.20
海螺AI学术论文查重降重功能实测与效果分析
AI
海螺AI学术论文查重降重功能实测与效果分析

当您使用海螺AI生成的英文论文在提交查重时遭遇高重复率或AIGC检测异常,请不要急于归咎于工具本身。核心原因在于,尽管AI生成的文本格式标准、语法地道,但其语言模式和常见短语组合,并未针对知网、维普、万方等中文查重数据库的语义比对逻辑进行专门优化。换言之,机器认为流畅自然的表达,在查重系统的算法看来

热心网友
05.20