哈工深发布EgoTouch触觉数据集百万帧视觉触觉同步助力具身智能_AI热点日报

哈工深发布EgoTouch触觉数据集百万帧视觉触觉同步助力具身智能

类型：热点整理2026-05-20

在具身智能的演进道路上，触觉感知已成为当前最亟待突破的关键技术。尽管多模态大模型已让机器人具备了“视觉”与“听觉”，但要让智能体真正理解并自如地操作物理世界，赋予其“触觉”能力是迈向实用化的核心一步。然而，获取高质量、可用的触觉数据面临诸多挑战。这不仅涉及高精度传感器的部署，更关键的是如何实现触觉

在具身智能的演进道路上，触觉感知已成为当前最亟待突破的关键技术。尽管多模态大模型已让机器人具备了“视觉”与“听觉”，但要让智能体真正理解并自如地操作物理世界，赋予其“触觉”能力是迈向实用化的核心一步。

然而，获取高质量、可用的触觉数据面临诸多挑战。这不仅涉及高精度传感器的部署，更关键的是如何实现触觉信号与视觉、动作在时空上的精准对齐，如何覆盖足够多样化的真实交互场景，以及如何构建能够从视觉信息中有效推理出触觉分布的智能模型。

随着Ego4D等大规模第一人称数据集的兴起，基于第一人称视角视频的具身学习研究获得了广泛关注。相较于传统的机器人遥操作数据集，第一人称数据在采集成本、视角覆盖以及交互自然度上优势显著，能更真实地复现人类与环境的互动过程，因而成为该领域的重要发展方向。

但一个核心瓶颈也随之凸显：现有的第一人称数据集普遍缺失了人类与环境交互中最关键的模态——触觉。缺乏触觉信息，模型便难以理解“接触”背后的力学本质。即便是抓取、搬运等基础操作，系统也无法判断抓握是否牢固、施力是否恰当，这严重制约了智能体在真实场景中的实际应用能力。

为攻克这一难题，哈尔滨工业大学（深圳）杨朔教授团队取得了突破性进展，发布了业界首个基于第一人称视角的多模态触觉数据集——EgoTouch，并配套提出了触觉估计框架TouchAnything。该方案同步采集了第一人称视觉、双手腕部视角视频、双手全掌高分辨率触觉压力信号以及手部关节三维位姿数据，首次实现了视觉与触觉的紧密对齐，为从视觉中“看见”触觉提供了全新的技术路径与基准。

EgoTouch数据集概览

EgoTouch数据集的设计，精准瞄准了触觉数据采集的几大核心痛点，并提供了系统性的解决方案。

多视角融合双手全掌触觉：EgoTouch首次实现了第一人称视角与双手腕部视角的多路视频，与双手全掌真实触觉压力数据的同步采集。第一人称相机提供了全局操作语境，而腕部相机则完美补充了常被手部自身遮挡的精细手物接触细节。

密集连续的全掌压力分布：通过可穿戴触觉采集手套，数据集提供了精确到手掌各区域的动态压力分布图，而非简单的二值接触信号，实现了对触觉的精细化度量。

涵盖极丰富场景的双手操作：数据集包含了超过300项精细手部操作任务，涵盖抓取、按压、工具使用、双手协调等多种类型，场景横跨室内、室外、商业环境，极大保证了数据的多样性与模型泛化潜力。

全模态数据严格时间同步：所有模态——三路视频、双掌压力图、双手42个关节的精确位姿——均进行了严格的逐帧时间对齐，为多模态融合学习奠定了坚实基础。

1. 与现有数据集相比，EgoTouch提供了最全面的模态信息

EgoTouch不仅包含了室内外的丰富环境信息，更提供了双掌的精确压力触觉数据。其操作物品类型超过1000种，总数据帧数突破两百万，在模态完整性与数据规模上均设立了新的行业标杆。

2. EgoTouch有着极其丰富的任务和场景分布

数据集将总体任务系统地划分为居家、工坊、办公、零售、户外五大场景类别，每个类别下都包含了多样化的具体任务类型，确保模型能在各种真实复杂环境下得到充分训练与验证。

3. 提供了一种可复现的标准化具身灵巧操作全模态数据采集流程

下图清晰展示了杨朔团队设计的这套标准化数据采集方案。它包含三个可穿戴式摄像头（用于第一人称和双腕视角）、一双Rokoko手部关节动捕手套、三个HTC Vive定位追踪器以及一双核心的压力触觉手套。这套流程清晰、标准、可复现，为后续相关研究提供了可靠的蓝本。

模型架构

有了高质量的数据，还需要强大的模型来挖掘其中的价值。基于EgoTouch数据集，研究团队构建了多视角触觉预测模型TouchAnything，为视觉到触觉的推理任务建立了基准方法。

该模型以DINOv2作为视觉骨干网络，创新性地设计了可学习的视角嵌入和跨视角交叉注意力机制。这意味着，模型能够智能地融合来自不同视角的视觉信息。更值得一提的是，即使在某个视角缺失（例如仅有第一人称视角）的情况下，模型依然能够提供相对准确的触觉预测，展现了良好的鲁棒性与实用性。

实验结果展示

以下视频与图片展示了TouchAnything模型的具体推理效果。可以看出，模型能够相当准确地预测出触觉压力在手掌上的分布情况，无论是简单的静态抓握还是复杂的动态操作，均表现出色。

多视角拔插充电器：

双手抛接网球：

单手鼠标操作：

便利店饮料抓握：

超市货品购买：

单手颠乒乓球：

多视角输入可以提升触觉预测准确性

实验数据有力证明，多视角输入能够显著提升触觉预测的性能。与仅使用第一人称视角相比，融合了左右手腕视角的多视角输入，无论在已见物体还是未见物体的测试设置下，都取得了一致的性能提升。其中，三视角联合输入的模型在Temporal_Accuracy、Contact_IoU、Volumetric_IoU和MAE等多个关键指标上表现最佳。

这种提升主要源于不同视角间的信息互补：第一人称视角把握整体交互语境，而手腕视角则能捕捉到那些被手部自身遮挡的关键接触细节，尤其在抓取起始和施力阶段，这些细节对于准确还原触觉压力分布至关重要。

数据规模提升显著增强触觉预测性能

另一个重要发现是，模型的性能随着训练数据规模的扩大呈现出稳定的扩展趋势。当训练数据比例从25%逐步提升至100%时，Contact_IoU与Volumetric_IoU指标持续改善，而平均绝对误差则稳步下降。更重要的是，这种性能提升在未见物体上的泛化能力同样显著。这表明，TouchAnything方法能够有效地从大规模数据中学习到鲁棒的视觉-触觉映射关系，具备强大的跨对象泛化潜力，验证了大数据驱动下触觉预测模型的可扩展性。

展望

回到核心观点：触觉，是具身智能走向实用化不可或缺的关键感知维度。EgoTouch数据集的发布，为当前灵巧操作与机器人学习研究填补了稀缺的高质量触觉信息空白。而TouchAnything框架，则为如何利用第一人称视觉数据预测触觉提供了高效、可靠的基准解决方案。

可以预见，灵巧操作将是具身智能亟待攻克的下一个技术高地，而触觉模态将在其中扮演主导角色，为高难度的精细操作提供最直接的物理反馈与状态评估。另一方面，在“世界模型”日益受到关注的当下，触觉信息也能为其注入关键的力学感知维度，共同构建更可信的环境状态预测和更可靠的动作生成与决策系统。

这项研究标志着我们在让机器“感知”并“理解”物理世界的道路上迈出了坚实一步。从“看得见”到“摸得着”，具身智能的感知拼图，正在被一块块精准补齐，为未来通用机器人的发展奠定了重要基础。

来源：https://www.51cto.com/article/839976.html

机器人

延伸阅读

补充最近整理过的热点入口。