哈工深发布EgoTouch触觉数据集 百万帧视觉触觉同步助力具身智能
在具身智能的演进道路上,触觉感知已成为当前最亟待突破的关键技术。尽管多模态大模型已让机器人具备了“视觉”与“听觉”,但要让智能体真正理解并自如地操作物理世界,赋予其“触觉”能力是迈向实用化的核心一步。
然而,获取高质量、可用的触觉数据面临诸多挑战。这不仅涉及高精度传感器的部署,更关键的是如何实现触觉信号与视觉、动作在时空上的精准对齐,如何覆盖足够多样化的真实交互场景,以及如何构建能够从视觉信息中有效推理出触觉分布的智能模型。

随着Ego4D等大规模第一人称数据集的兴起,基于第一人称视角视频的具身学习研究获得了广泛关注。相较于传统的机器人遥操作数据集,第一人称数据在采集成本、视角覆盖以及交互自然度上优势显著,能更真实地复现人类与环境的互动过程,因而成为该领域的重要发展方向。
但一个核心瓶颈也随之凸显:现有的第一人称数据集普遍缺失了人类与环境交互中最关键的模态——触觉。缺乏触觉信息,模型便难以理解“接触”背后的力学本质。即便是抓取、搬运等基础操作,系统也无法判断抓握是否牢固、施力是否恰当,这严重制约了智能体在真实场景中的实际应用能力。
为攻克这一难题,哈尔滨工业大学(深圳)杨朔教授团队取得了突破性进展,发布了业界首个基于第一人称视角的多模态触觉数据集——EgoTouch,并配套提出了触觉估计框架TouchAnything。该方案同步采集了第一人称视觉、双手腕部视角视频、双手全掌高分辨率触觉压力信号以及手部关节三维位姿数据,首次实现了视觉与触觉的紧密对齐,为从视觉中“看见”触觉提供了全新的技术路径与基准。
EgoTouch数据集概览

EgoTouch数据集的设计,精准瞄准了触觉数据采集的几大核心痛点,并提供了系统性的解决方案。
多视角融合双手全掌触觉:EgoTouch首次实现了第一人称视角与双手腕部视角的多路视频,与双手全掌真实触觉压力数据的同步采集。第一人称相机提供了全局操作语境,而腕部相机则完美补充了常被手部自身遮挡的精细手物接触细节。
密集连续的全掌压力分布:通过可穿戴触觉采集手套,数据集提供了精确到手掌各区域的动态压力分布图,而非简单的二值接触信号,实现了对触觉的精细化度量。
涵盖极丰富场景的双手操作:数据集包含了超过300项精细手部操作任务,涵盖抓取、按压、工具使用、双手协调等多种类型,场景横跨室内、室外、商业环境,极大保证了数据的多样性与模型泛化潜力。
全模态数据严格时间同步:所有模态——三路视频、双掌压力图、双手42个关节的精确位姿——均进行了严格的逐帧时间对齐,为多模态融合学习奠定了坚实基础。
1. 与现有数据集相比,EgoTouch提供了最全面的模态信息
EgoTouch不仅包含了室内外的丰富环境信息,更提供了双掌的精确压力触觉数据。其操作物品类型超过1000种,总数据帧数突破两百万,在模态完整性与数据规模上均设立了新的行业标杆。

2. EgoTouch有着极其丰富的任务和场景分布
数据集将总体任务系统地划分为居家、工坊、办公、零售、户外五大场景类别,每个类别下都包含了多样化的具体任务类型,确保模型能在各种真实复杂环境下得到充分训练与验证。

3. 提供了一种可复现的标准化具身灵巧操作全模态数据采集流程
下图清晰展示了杨朔团队设计的这套标准化数据采集方案。它包含三个可穿戴式摄像头(用于第一人称和双腕视角)、一双Rokoko手部关节动捕手套、三个HTC Vive定位追踪器以及一双核心的压力触觉手套。这套流程清晰、标准、可复现,为后续相关研究提供了可靠的蓝本。

模型架构
有了高质量的数据,还需要强大的模型来挖掘其中的价值。基于EgoTouch数据集,研究团队构建了多视角触觉预测模型TouchAnything,为视觉到触觉的推理任务建立了基准方法。
该模型以DINOv2作为视觉骨干网络,创新性地设计了可学习的视角嵌入和跨视角交叉注意力机制。这意味着,模型能够智能地融合来自不同视角的视觉信息。更值得一提的是,即使在某个视角缺失(例如仅有第一人称视角)的情况下,模型依然能够提供相对准确的触觉预测,展现了良好的鲁棒性与实用性。

实验结果展示
以下视频与图片展示了TouchAnything模型的具体推理效果。可以看出,模型能够相当准确地预测出触觉压力在手掌上的分布情况,无论是简单的静态抓握还是复杂的动态操作,均表现出色。
多视角拔插充电器:

双手抛接网球:

单手鼠标操作:

便利店饮料抓握:

超市货品购买:

单手颠乒乓球:


多视角输入可以提升触觉预测准确性

实验数据有力证明,多视角输入能够显著提升触觉预测的性能。与仅使用第一人称视角相比,融合了左右手腕视角的多视角输入,无论在已见物体还是未见物体的测试设置下,都取得了一致的性能提升。其中,三视角联合输入的模型在Temporal_Accuracy、Contact_IoU、Volumetric_IoU和MAE等多个关键指标上表现最佳。
这种提升主要源于不同视角间的信息互补:第一人称视角把握整体交互语境,而手腕视角则能捕捉到那些被手部自身遮挡的关键接触细节,尤其在抓取起始和施力阶段,这些细节对于准确还原触觉压力分布至关重要。
数据规模提升显著增强触觉预测性能

另一个重要发现是,模型的性能随着训练数据规模的扩大呈现出稳定的扩展趋势。当训练数据比例从25%逐步提升至100%时,Contact_IoU与Volumetric_IoU指标持续改善,而平均绝对误差则稳步下降。更重要的是,这种性能提升在未见物体上的泛化能力同样显著。这表明,TouchAnything方法能够有效地从大规模数据中学习到鲁棒的视觉-触觉映射关系,具备强大的跨对象泛化潜力,验证了大数据驱动下触觉预测模型的可扩展性。
展望
回到核心观点:触觉,是具身智能走向实用化不可或缺的关键感知维度。EgoTouch数据集的发布,为当前灵巧操作与机器人学习研究填补了稀缺的高质量触觉信息空白。而TouchAnything框架,则为如何利用第一人称视觉数据预测触觉提供了高效、可靠的基准解决方案。
可以预见,灵巧操作将是具身智能亟待攻克的下一个技术高地,而触觉模态将在其中扮演主导角色,为高难度的精细操作提供最直接的物理反馈与状态评估。另一方面,在“世界模型”日益受到关注的当下,触觉信息也能为其注入关键的力学感知维度,共同构建更可信的环境状态预测和更可靠的动作生成与决策系统。
这项研究标志着我们在让机器“感知”并“理解”物理世界的道路上迈出了坚实一步。从“看得见”到“摸得着”,具身智能的感知拼图,正在被一块块精准补齐,为未来通用机器人的发展奠定了重要基础。
相关攻略
过去两年,从Sora到Veo,再到Cosmos,视频生成模型在“视觉逼真度”这条赛道上飞速发展,生成的画面已足以以假乱真。然而,一个根本性问题始终存在:这些模型真的“理解”了我们所处的物理世界吗?答案很可能是否定的。 事实上,一旦要求这些模型生成涉及机器人操作的视频,诸如“机械臂穿模、物体凭空消失、
当前,具身智能领域正面临一个关键瓶颈:过度依赖真机遥操作数据来训练机器人模型,这条技术路径的局限性日益凸显。 成本高昂是首要难题——采集一小时的遥操作数据往往需要数百元投入,并且必须搭建专业的动作捕捉环境。采集效率则是另一大硬伤:操作员通过屏幕遥控机械臂,其数据采集速度远跟不上真实生产线的作业节拍。
具身智能领域,最近被一群年轻人“刷新”了认知。 当行业还在仿真与现实迁移的课题中探索时,一支由00后主导的团队——灵初智能,选择了一条更直接的路径:用近十万小时的人类真实操作数据,为机器人“喂食”。这个数据量级,即便放在全球视野下,也堪称领先。 目前,业界常用的人类操作数据集多在几千至几万小时,即便
人形机器人赛道迎来一位实力强劲的新成员。4月13日,智元机器人正式推出其全新一代全尺寸人形机器人——远征A3。与以往侧重工业或服务领域的机器人不同,这款产品精准定位于一个充满想象力的场景,并打出了“为舞台而生”的鲜明标签。 那么,这台旨在征服舞台、点亮表演的机器人,究竟在哪些方面实现了突破?它又如何
杭州云深处科技科创板IPO申请获受理,拟募资25 03亿元。公司专注四足机器人B端工业应用,在电力巡检等领域市场份额领先,2025年实现首次盈利。与同行宇树科技侧重消费市场不同,云深处坚持深耕行业场景,其未来发展聚焦算法研发与产业化拓展。
热门专题
热门推荐
人工智能的浪潮正席卷每个角落,智能办公工具无疑是其中备受瞩目的弄潮儿。以自然语言处理和机器学习为内核的AI文档助手,承诺用高效与精准重塑我们的文字工作。但一个值得玩味的问题随之浮现:它究竟是一场碘伏传统的革命性创新,还是更像一位得力的职业伙伴? AI文档助手的革命性创新 不得不说,AI文档助手的出现
2026年5月13日至14日,备受瞩目的Create 2026百度AI开发者大会将在北京隆重举行。本届大会以“万物一体”为核心主题,并实现了一项重要升级:首次将“Create百度AI开发者大会”与“云智大会”全面合并。此次整合旨在为参会者提供一站式、全景式的洞察体验,无论是关注AI基础设施的企业决策
雷蛇与《鸣潮》联名的达妮娅主题外设系列将于2026年5月20日推出,涵盖无线鼠标、机械键盘、电竞椅和超大鼠标垫四款产品。系列兼顾轻量化设计、高性能硬件与角色主题元素,致力于为玩家打造兼具操作性能与沉浸氛围的全方位游戏体验。
《极限竞速:地平线6》登陆Xbox与PC平台,首次将舞台设定于日本。本作画质显著提升,以丰富细节呈现东京霓虹、樱花林与山间晨雾。玩法上重构开局身份,玩家需从普通访客逐步成长为传奇车手,并引入庄园系统与探索乐趣。游戏对硬件性能要求较高,但借助DLSS4等技术可实现画质与流畅度的平衡。
人工智能正改变传统表格制作方式,通过自然语言指令自动生成表格与图表,显著提升工作效率。人机协作虽带来便利,确保数据准确性仍是关键。未来更智能的预测功能值得期待,但使用者仍需掌握数据分析基本功,以充分释放数据价值。





