首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
港大突破:VR驱动机器人实现类人动作学习技术

港大突破:VR驱动机器人实现类人动作学习技术

热心网友
72
转载
2026-02-14


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这项由香港大学、上海创新研究院、北京航空航天大学和Kinetix AI联合开展的突破性研究发表于2026年2月,论文编号为arXiv:2602.10106v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

想象这样一个场景:你戴着VR眼镜在家里做家务,扔垃圾、整理物品、搬运东西,而这些平凡的动作被记录下来后,竟然能教会一台1.3米高的机器人在完全不同的环境中做同样的事情。这听起来像科幻电影的情节,但香港大学的研究团队真的做到了。

这个名为"EgoHumanoid"的项目首次实现了用人类的第一视角视频来训练人形机器人进行复杂的全身运动控制。就像人类婴儿通过观察大人走路来学会走路一样,机器人现在也能通过"看"人类的视频来学习如何在真实世界中行走和操作物体。

传统的机器人训练方式就像让一个学生只在教室里学习,永远接触不到外面的真实世界。研究人员通常需要在实验室里用昂贵复杂的遥控设备来"手把手"教机器人每一个动作,这不仅成本高昂,而且机器人学到的技能往往只能在实验室这种单调环境中使用。一旦到了真实的家庭、商店或户外环境,机器人就像换了一个完全陌生的世界,常常表现得笨手笨脚。

而人类的日常生活恰恰相反,我们每天都在各种不同的环境中走路、取物、搬运,积累了丰富的经验。问题是,人类和机器人的身体构造差别很大:人类平均身高1.6到1.8米,而实验用的Unitree G1机器人只有1.3米高;人类有灵活的手指,机器人只有简单的三指机械手;人类走路时身体会自然摆动,机器人则需要保持机械式的平衡。这就像试图把大人的衣服直接套在小孩身上一样,尺寸和比例都对不上。

研究团队的巧妙之处在于开发了一套"翻译系统",能够把人类的动作"翻译"成机器人能理解和执行的指令。这个过程包含两个关键步骤:视角对齐和动作对齐。

视角对齐就像给机器人配了一副"变焦眼镜"。由于人类比机器人高,看到的视角也不同,就好比成年人和小孩子看同一张桌子时,成年人是俯视角度,小孩子可能是平视角度。研究团队使用了一种叫MoGe的技术来估算视频中每个像素点的距离信息,然后把人类的高视角"压缩"到机器人的低视角。当这种转换产生空白区域时,他们又用人工智能图像生成技术来"脑补"这些缺失的部分,确保机器人看到的是完整的画面。

动作对齐则更像是制作一本"通用动作字典"。研究团队设计了一套人类和机器人都能"说"的动作语言。对于上半身的操作动作,他们用相对位置变化来描述,比如"手向前伸5厘米,向左转15度",这样就避免了因为身高差异导致的绝对位置不匹配。对于下半身的行走动作,他们把复杂的步态简化为几个基本指令:前进、后退、左转、右转、蹲下、站立等,就像游戏手柄的方向键一样简单明了。

为了收集训练数据,研究团队开发了一套便携的VR设备系统。人类志愿者戴上VR头盔和身体追踪器,头盔上安装的摄像头记录第一视角视频,身体追踪器捕捉全身动作。这套设备重量轻,可以带到任何地方使用,不像传统的机器人遥控系统那样笨重复杂。志愿者可以在家里、商店、公园等各种真实环境中自然地执行各种任务,而这些数据都会被自动记录下来。

相比之下,机器人的遥控训练就像在实验室里进行"标准化考试",操作员需要戴着复杂的遥控设备精确控制机器人的每一个关节,这不仅技术要求高,而且只能在配备专业设备的实验室环境中进行。数据显示,收集一段人类示范视频平均只需要39.7秒,而收集同样长度的机器人遥控数据需要62.1秒,人类数据收集效率提高了近一倍。

研究团队设计了四个测试任务来验证这个系统的效果。这些任务都需要机器人同时具备行走和操作能力,就像人类在日常生活中需要一边走路一边做事情一样。

第一个任务是"枕头放置",机器人需要抱着枕头走到床边,然后蹲下把枕头放到床头的指定位置。这个任务考验的是机器人能否在携带物品的同时保持平衡行走,并且准确地在软床面上放置物品。

第二个任务是"垃圾投放",机器人要拿着垃圾走到垃圾桶前,然后把垃圾准确投入桶口。这不是简单的从上往下丢弃,而是需要从侧面投入,这要求机器人具备精确的空间定位和投掷技巧。

第三个任务是"玩具转移",机器人需要走到一个台子前,用双手抓取玩具,然后转身走到另一张桌子前把玩具放下。这个任务涉及连续的动作序列:接近、抓取、携带、放置,每一步都不能出错。

第四个任务是"购物车收纳",这是最复杂的任务。机器人要推着购物车到货架前,用一只手扶着购物车保持稳定,用另一只手从货架上取下玩具放入购物车,最后推着购物车离开。这个任务要求机器人具备多任务协调能力。

实验结果令人惊喜。在熟悉的实验室环境中,仅用机器人遥控数据训练的系统平均成功率为59%,而加入人类示范数据后成功率提升到78%。但真正的突破出现在陌生环境测试中:纯机器人训练的系统成功率只有31%,而结合人类数据的系统成功率高达82%,提升了惊人的51%。

这意味着什么呢?就像一个只在学校学习的学生和一个既在学校学习又有丰富生活经验的学生相比,后者在面对新情况时适应能力更强。人类的日常经验为机器人提供了丰富的"生活常识",让它能更好地处理各种意外情况。

进一步的分析揭示了一个有趣的现象:不同类型的技能从人类数据中获益程度不同。导航技能(如走路、转弯、定位)几乎完全可以从人类数据中学习,因为空间移动的基本原理对人类和机器人是相似的。但精细操作技能(如精确抓取、旋转物体)的迁移效果较差,因为人类的手指灵活度远超机器人的机械手。

研究团队还发现,人类数据的多样性比数量更重要。他们做了一个对比实验:使用同样数量的人类示范数据,但分别在1个、2个、3个不同场景中收集。结果显示,即使总数据量相同,场景越多样,机器人的泛化能力越强。这就像学语言一样,在不同环境中接触同一个词汇比在同一环境中重复听同一个词汇更有助于理解。

当然,这套系统也有其局限性。最主要的问题是手部动作的精确转换仍然困难。由于人类和机器人的手部结构差异巨大,机器人很难准确理解人类想要执行的精确旋转动作。另外,这种训练方法对数据质量要求很高,人类示范者需要保持相对标准的动作,比如手部不能被遮挡太久,身体不能过度摇摆等。

展望未来,这项技术的潜在应用前景广阔。家庭服务机器人可能不再需要为每个新家庭单独编程,而是通过观看主人的日常生活视频就能学会适应新环境。工业机器人也可能通过观看熟练工人的操作视频来快速学习新的装配流程。更有趣的是,随着VR和AR设备的普及,普通人的日常活动本身就可能成为机器人学习的宝贵资源。

这项研究的真正意义在于开辟了一条全新的机器人训练路径。以往的机器人学习就像传统的师父带徒弟,需要手把手地教每一个动作。而现在,机器人开始具备了通过观察学习的能力,就像人类婴儿通过观察成年人来学习基本技能一样。虽然目前这种学习还不够完美,但它代表了机器人智能发展的一个重要里程碑。

随着这种技术的不断完善,我们或许真的会迎来这样一个时代:只要戴上VR眼镜演示一遍,机器人就能学会新技能。那时候,训练机器人可能就像录制一段视频教程一样简单。

Q&A

Q1:EgoHumanoid系统具体是如何让机器人学会人类动作的?

A:EgoHumanoid通过两个步骤实现:首先是视角对齐,用AI技术把人类的高视角转换成机器人的低视角;然后是动作对齐,把人类的复杂动作转换成机器人能理解的简单指令。就像制作了一本人机通用的动作字典,让机器人能"翻译"人类的示范动作。

Q2:用VR眼镜训练机器人比传统方法有什么优势?

A:VR眼镜训练的最大优势是便携和高效。传统方法需要在实验室用复杂设备遥控机器人,而VR系统可以在任何地方收集数据,效率提高近一倍。更重要的是,人类可以在真实多样的环境中自然演示,为机器人提供丰富的"生活经验",大幅提升其在新环境中的适应能力。

Q3:这种训练方法的成功率如何?

A:在陌生环境测试中,纯机器人训练的成功率只有31%,而结合人类示范数据的系统成功率达到82%,提升了51%。在熟悉环境中,成功率也从59%提升到78%。这说明人类的日常经验确实能显著提高机器人的学习效果和适应能力。

来源:https://www.163.com/dy/article/KLOPB99V0511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

从《小王子》到LBE 2.0:沉浸式展览的内容战如何实战破局?
科技数码
从《小王子》到LBE 2.0:沉浸式展览的内容战如何实战破局?

来源:环球网【环球网科技报道 记者 李文瑶】北京,国家典籍博物馆。戴上头显,走进那个用折纸风格构建的B-612星球,伸手触碰玫瑰,俯身与小狐狸互动——这不是《小王子》原著中的想象,而是正在发生的沉浸

热心网友
04.01
英伟达云游戏升级支持Vision Pro:4K/90帧VR体验评测
科技数码
英伟达云游戏升级支持Vision Pro:4K/90帧VR体验评测

IT之家 3 月 31 日消息,英伟达更新 GeForce Now 云游戏服务,在最新 2 0 83 版本中,专门针对苹果 Vision Pro 头显,提升游戏串流画质。本次版本更新全面解锁高帧率模

热心网友
03.31
中移动AR专利:改善弱视训练效果的显示新方法
科技数码
中移动AR专利:改善弱视训练效果的显示新方法

国家知识产权局信息显示,中移(江西)虚拟现实科技有限公司、中国移动通信集团江西有限公司、中国移动通信集团有限公司申请一项名为“显示方法、装置及电子设备”的专利,公开号CN121747488A,申请日

热心网友
03.30
凯洛特科技专利申请:如何精准采集与修复VR数据提升体验
科技数码
凯洛特科技专利申请:如何精准采集与修复VR数据提升体验

国家知识产权局信息显示,青岛凯洛特科技有限公司申请一项名为“一种虚拟现实数据采集及修复方法”的专利,公开号CN121707869A,申请日期为2025年12月。专利摘要显示,本发明提供了一种虚拟现实

热心网友
03.28
英伟达GeForce NOW新增《红色沙漠》支持,VR串流帧率升至90FPS
科技数码
英伟达GeForce NOW新增《红色沙漠》支持,VR串流帧率升至90FPS

IT之家 3 月 19 日消息,英伟达今日宣布,为 GeForce NOW 带来一轮更新,内容分为两部分:新增游戏、VR 串流体验升级。新加入的游戏包括 Pearl Abyss 开发的开放世界作品《

热心网友
03.28

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

百度网盘app如何切换企业版-百度网盘app切换企业版的具体操作方法介绍
手机教程
百度网盘app如何切换企业版-百度网盘app切换企业版的具体操作方法介绍

百度网盘个人版如何转企业版?完整切换步骤详细指南 当个人网盘难以满足团队文件共享与协作需求时,百度网盘提供的企业版无疑是高效解决方案。本文将为你详细解析如何直接在百度网盘App内,将个人账户一键切换至功能更强大的企业版,快速开启团队文件管理新模式。 第一步:进入个人中心页面 首先,请确保已安装并打开

热心网友
04.02
AI+eSIM落地 中国联通5G AI CPE巴展重磅亮相
科技数码
AI+eSIM落地 中国联通5G AI CPE巴展重磅亮相

“AI+eSIM”云智终端方案正式商用,首批合作项目5G AI CPE成功落地 在MWC 2026世界移动通信大会上,产业合作迎来重大进展。由全球移动通信系统协会(GSMA)与中国联通共同倡导的“‘AI+eSIM’云智终端合作联通方案”正式对外发布,并迅速完成首个商业化项目签约。中国联通联合通则康威

热心网友
04.02
洛克王国世界水泡壳如何搭配技能-洛克王国世界水泡壳技能搭配方法
游戏资讯
洛克王国世界水泡壳如何搭配技能-洛克王国世界水泡壳技能搭配方法

洛克王国世界水泡壳技能搭配完全指南:打造攻防一体的战术核心 世界水泡壳的技能池设计充满了战术深度,完美诠释了攻防一体的战斗哲学。无论是纯粹依靠威力压制对手的技能,还是具备控制、辅助等战略功能的技能,都能在其技能库中找到。掌握其技能搭配的核心思路,是让世界水泡壳在对战中发挥出全部潜力的关键,能够轻松取

热心网友
04.02
现货比特币(BTC)ETF当周吸金14.2亿美元,创10月初以来最强劲一周
web3.0
现货比特币(BTC)ETF当周吸金14.2亿美元,创10月初以来最强劲一周

现货比特币ETF单周吸金14 2亿美元,强势回归背后的市场信号 加密货币市场正迎来关键转折点。近期数据显示,现货比特币ETF资金流入呈现爆发式增长,成为近期最受关注的市场风向标。这不仅反映了机构资金的重新布局,更可能预示着市场供需结构的深层变化。 数据解读:创纪录的资金流入意味着什么? 根据专业追踪

热心网友
04.02
燕云十六声河西竹篮打水奇遇怎么做-燕云十六声河西竹篮打水奇遇的做法介绍
游戏资讯
燕云十六声河西竹篮打水奇遇怎么做-燕云十六声河西竹篮打水奇遇的做法介绍

河西竹篮打水奇遇触发地点指南 想要成功触发《燕云十六声》中颇具趣味的“竹篮打水”奇遇,玩家需要首先前往河西地图的特定区域进行探索。该触发点位置较为隐蔽,建议在河西沿岸的村落与水边场景多番巡视。当你接近正确位置时,可以留意游戏内的环境暗示,例如独特的视觉标识、背景音效的变化或氛围的微妙转变,这些都是系

热心网友
04.02