NUS邵林团队T(R,O) Grasp实现5FPS动态灵巧抓取刷新SOTA

首页

热心网友

转载

2026-05-20

灵巧手抓取是机器人实现复杂操作任务的核心技术。近年来，深度学习推动了该领域的快速发展，形成了三大主流技术路线：以机器人为中心、以物体为中心和以交互为中心的方法。

机器人中心方法直接学习从观测数据（如点云、图像）到动作指令的映射。其优势在于推理速度快，但存在样本效率低、泛化能力弱的问题，更换机械手往往需要重新训练模型。

物体中心方法专注于预测物体表面的理想接触点或接触热力图，具有较好的泛化性。然而，该方法需要复杂的后续处理来反推关节运动，且对观测信息的完整性依赖较高，在信息缺失时表现受限。

此前，D (R,O) Grasp 提出了一种交互中心的距离矩阵表征，改善了泛化性与推理效率。但该方法计算开销巨大，且效果严重依赖初始手部姿态的合理性，难以支撑大规模模型构建。

那么，是否存在一种兼具强大表达能力与高效轻量特性的新方法？T (R,O) Grasp 正是为此提出的创新解决方案。

该研究提出使用 T (R,O) 图结构作为灵巧手抓取的统一表征。它将物体与机械手关节的几何拓扑信息编码为图节点，并将其相对位姿关系定义为边。如图1所示，相较于传统的距离矩阵，这种图结构提供了更精巧、高效的交互建模方式。

图 1. T (R,O) 图结构与扩散过程

目前，该论文已被机器人领域顶级会议 IEEE International Conference on Robotics & Automation（ICRA 2026）接收。

二、方法：T (R,O) 图的构建与应用

图 2. T (R,O) Grasp 整体框架

给定物体点云与不同机械手的URDF配置文件，T (R,O) Grasp 旨在输出多样且稳定的抓取姿态，并适配多种灵巧手。如图2所示，其工作流程分为三个核心步骤。

2.1 构建 T (R,O) 图结构

图 3. T (R,O) 图结构的构建

此步骤核心是建模物体与机械手间的交互关系。如图3所示：首先，通过预训练的VQ-VAE模型将物体点云编码为一个物体节点。其次，结合机械手关节的几何特征（BPS）与位姿信息，构建一系列关节节点。最后，利用物体节点与关节节点之间、以及关节节点彼此间的相对位姿关系来定义图的边，从而形成一个蕴含丰富空间与拓扑信息的交互图。

2.2 训练图扩散网络并预测关节位姿

获得T (R,O)图后，模型在标准的DDIM（去噪扩散隐式模型）框架下进行训练，对关节位姿执行加噪与去噪过程。其中的去噪器（Denoiser）由多层Transformer构成，具体架构见图4。

图 4. T (R,O) Denoiser 网络架构

得益于DDIM推理时对引导条件的良好支持，T (R,O) Grasp 训练完成后能够灵活生成满足多种约束的抓取姿态。例如，可指定抓取方向或限定物体的特定抓取区域，模型均能生成对应方案。

2.3 通过逆运动学求解最终指令

模型预测输出的是抓取时各关节的位姿矩阵。为获得机械臂可执行的动作指令，需进行最后一步：逆运动学求解。研究利用 Pyroki 工具包高效求解此问题，从而将预测位姿转化为具体的关节角度指令。

三、实验结果：性能与效率的双重验证

研究团队系统评估了 T (R,O) Grasp 在自由生成（无条件）与带约束生成（如指定方向或区域）两种模式下的性能。评估指标涵盖抓取成功率、生成姿态多样性及关键的推理速度。

图 5. T (R,O) Grasp 与 baseline 性能对比

从图5到图8的对比结果清晰表明，无论在无约束还是多种约束条件下，T (R,O) Grasp 的性能均超越现有基线方法。它展现了跨不同灵巧手生成既精准又多样化抓取姿态的强大能力。

图 6. T (R,O) Grasp 在无条件设置下的灵巧抓取

图 7. T (R,O) Grasp 在给定抓取方向下的灵巧抓取

图 8. T (R,O) Grasp 在给定抓取区域下的灵巧抓取

在效率方面表现同样出色。在 NVIDIA 40GB A100 GPU 上，该方法实现了平均5 FPS的推理速度，意味着每秒可处理多个抓取规划任务。这为在动态场景中实现实时、闭环的抓取控制奠定了坚实基础。

仿真成功需真机验证。研究团队将算法部署到 xArm 机械臂平台，并在 XHand 和 LEAP Hand 两款灵巧手上进行了测试。

图 9. T (R,O) Grasp 在 XHand 与 LEAP Hand 上的真实机器人抓取

真实实验结果表明，T (R,O) Grasp 在XHand和LEAP Hand上分别取得了91.0%和90.0%的抓取成功率。更具挑战的是动态环境测试：在运行中的传送带上，算法依然能完成稳定抓取（图10）。这充分验证了其在动态场景下实现闭环抓取的实用潜力与鲁棒性。

图 10. T (R,O) Grasp 在传送带动态环境的真实机器人抓取

总结而言，T (R,O) Grasp 通过引入新颖的图结构表征，在保持强大表达能力的同时，显著提升了灵巧抓取规划的效率和泛化能力。该方法不仅在多项指标上刷新了跨智能体灵巧抓取的纪录，其高达5 FPS的推理速度与在动态场景中的成功演示，都标志着该技术向实际应用迈出了关键一步。

来源:https://www.51cto.com/article/840440.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：MCP架构已过时现代开发如何选择替代方案下一篇：隐式思维链模型LRT推理能力更强速度更快

相关攻略

高德世界模型基线开源 CVPR 2026挑战赛启动

过去两年，从Sora到Veo，再到Cosmos，视频生成模型在“视觉逼真度”这条赛道上飞速发展，生成的画面已足以以假乱真。然而，一个根本性问题始终存在：这些模型真的“理解”了我们所处的物理世界吗？答案很可能是否定的。事实上，一旦要求这些模型生成涉及机器人操作的视频，诸如“机械臂穿模、物体凭空消失、

热心网友

05.19

中国具身智能全球领先十万小时数据突破PI与英伟达技术壁垒

当前，具身智能领域正面临一个关键瓶颈：过度依赖真机遥操作数据来训练机器人模型，这条技术路径的局限性日益凸显。成本高昂是首要难题——采集一小时的遥操作数据往往需要数百元投入，并且必须搭建专业的动作捕捉环境。采集效率则是另一大硬伤：操作员通过屏幕遥控机械臂，其数据采集速度远跟不上真实生产线的作业节拍。

热心网友

05.19

中国具身智能模型登顶全球榜首开启机器人数据驱动新纪元

具身智能领域，最近被一群年轻人“刷新”了认知。当行业还在仿真与现实迁移的课题中探索时，一支由00后主导的团队——灵初智能，选择了一条更直接的路径：用近十万小时的人类真实操作数据，为机器人“喂食”。这个数据量级，即便放在全球视野下，也堪称领先。目前，业界常用的人类操作数据集多在几千至几万小时，即便

热心网友

05.19

智元远征A3人形机器人发布：续航10小时并支持空中漫步

人形机器人赛道迎来一位实力强劲的新成员。4月13日，智元机器人正式推出其全新一代全尺寸人形机器人——远征A3。与以往侧重工业或服务领域的机器人不同，这款产品精准定位于一个充满想象力的场景，并打出了“为舞台而生”的鲜明标签。那么，这台旨在征服舞台、点亮表演的机器人，究竟在哪些方面实现了突破？它又如何

热心网友

05.19

业界动态

宇树科技对手IPO估值25亿专业机器狗市场前景分析

杭州云深处科技科创板IPO申请获受理，拟募资25 03亿元。公司专注四足机器人B端工业应用，在电力巡检等领域市场份额领先，2025年实现首次盈利。与同行宇树科技侧重消费市场不同，云深处坚持深耕行业场景，其未来发展聚焦算法研发与产业化拓展。

热心网友

05.19

热门推荐

算力时代电力价值重估能源如何支撑数字经济

近日，国家能源局联合发改委、工信部、国家数据局正式印发《关于促进人工智能与能源双向赋能的行动方案》。这份重磅文件的核心思路非常清晰：一方面，以坚实的能源基础支撑人工智能（AI）的快速发展；另一方面，利用AI技术赋能能源行业转型升级。其核心目标是推动能源、算力、应用场景、数据与算法模型五大关键要素深度

热心网友

05.20

智谱清影与Runway Gen3视频生成模型对比评测

在挑选文生视频工具时，若您正在智谱清影与Runway Gen-3之间权衡，那么了解两者在生成效果上的具体差异，将有助于您做出更明智的选择。本文将从画质清晰度、细节纹理、运动自然度与视频连贯性等核心维度，通过实测对比为您详细解析。一、画质与分辨率表现首先对比硬性指标。智谱清影基于CogVideoX

热心网友

05.20

通义万象制作数据可视化科技背景的实用教程

想用通义万相生成一张科技感十足的数据可视化背景，但出来的画面总觉得少了点“内味儿”？数字界面、粒子流、电路纹理这些关键元素一个不见，画面平平无奇？这通常不是工具的问题，而是提示词没有精准锚定科技可视化的核心要素，或者模型参数没调到最佳状态。别急，下面这几种方法，能帮你把想法精准地“翻译”成画面。一

热心网友

05.20

Vidu视频慢动作与快进效果制作教程

想要在Vidu生成的视频中实现流畅的慢动作或快进效果？虽然模型界面没有提供直接调整播放速度的滑块，但通过巧妙的提示词设计、利用内置功能，或结合后期处理工具，你完全可以精准掌控视频的节奏与时间感。本文将为你详细解析四种实用方法，从生成前到生成后，全方位满足你的创作需求。一、通过精准提示词引导运动节奏

热心网友

05.20

海螺AI学术论文查重降重功能实测与效果分析

当您使用海螺AI生成的英文论文在提交查重时遭遇高重复率或AIGC检测异常，请不要急于归咎于工具本身。核心原因在于，尽管AI生成的文本格式标准、语法地道，但其语言模式和常见短语组合，并未针对知网、维普、万方等中文查重数据库的语义比对逻辑进行专门优化。换言之，机器认为流畅自然的表达，在查重系统的算法看来

热心网友

05.20