首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
上海交大团队突破:让机器人拥有视觉预见力

上海交大团队突破:让机器人拥有视觉预见力

热心网友
17
转载
2026-01-15


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这项由上海交通大学、上海人工智能实验室、南京邮电大学、复旦大学和博世公司联合开展的研究于2025年11月发表在计算机视觉领域顶级会议上,论文编号为arXiv:2511.16175v1。研究团队的核心成员包括杨毅、李学琦、陈一阳等多位来自不同机构的研究者,其中上海交大的邓志杰教授担任通讯作者。有兴趣深入了解的读者可以通过该论文编号查询完整研究内容。

想象一下,如果你的机器人助手在帮你收拾房间时,能够像经验丰富的管家一样提前"看到"下一步会发生什么——当它伸手去拿桌上的杯子时,它已经能预见到杯子被放到洗碗机里的画面。这种神奇的能力不再是科幻电影中的情节,上海交大的研究团队刚刚让这个想法变成了现实。

目前的机器人就像刚学会走路的孩子,它们只能看到眼前的东西,然后做出相应的动作。但问题在于,这种"走一步看一步"的方式让机器人的学习效率很低,就好比你试图通过只看一张张静态照片来学习如何骑自行车一样困难。研究团队发现,如果让机器人能够预见未来的画面,就像给它装上了"预言眼镜",它的学习能力会大幅提升。

然而,让机器人学会预测未来画面并不简单。传统的方法就像让一个人同时学习开车、做数学题和背诗词一样,各种任务混在一起反而效果不佳。而且,现有的机器人往往在学习动作技能后,就忘记了如何理解和执行复杂的语言指令,就像一个专注于技术活的工人可能会忽略与客户的沟通一样。

研究团队提出的解决方案叫做Mantis,这是一个具有"解耦视觉预见"能力的全新框架。解耦的意思就像把原本捆绑在一起的几根绳子分开处理,让每根绳子都能发挥最佳作用。Mantis的核心创新在于把"看未来"和"做动作"这两个任务巧妙地分离开来,同时保持它们之间的有效协作。

这个系统的工作原理颇为巧妙。Mantis使用了一种叫做"潜在动作查询"的技术,这些查询就像是机器人大脑中的"动作侦探",专门负责从当前画面和未来画面之间的变化中找出隐藏的动作信息。当机器人看到当前的场景时,这些"侦探"会自动捕捉到从现在到未来需要进行的关键动作,然后将这些信息传递给负责执行具体动作的模块。

更令人印象深刻的是,Mantis采用了一种渐进式的训练方法,就像教孩子学习一样,先从简单的开始,逐步增加难度。训练分为三个阶段:首先让机器人通过观看大量人类操作视频学会预测未来画面,这就像让孩子先看大人做事学习经验。然后引入真实的机器人操作数据,让它学会将预测能力与实际动作结合起来。最后加入语言理解训练,确保机器人在学会技能的同时不会忘记如何理解和执行人类的指令。

为了提高计算效率,研究团队还开发了一种叫做"自适应时序集成"的技术。这个技术就像一个智能的"节能开关",它会根据当前任务的复杂程度自动调整计算资源的使用。当机器人在进行精细操作时,比如抓取一个易碎的物品,系统会启用更多的计算资源来确保动作的稳定性。而在进行简单移动时,系统会自动降低计算强度,从而将推理计算量减少了50%,同时保持相同的任务成功率。

实验结果令人振奋。在广泛使用的LIBERO仿真测试平台上,Mantis达到了96.7%的成功率,超越了包括OpenVLA、π0等在内的多个先进系统。更重要的是,Mantis展现出了显著更快的学习速度,传统的视觉预测方法需要十几个训练周期才能达到的效果,Mantis在几个周期内就能实现。

在真实世界的测试中,研究团队设计了三个不同的场景来验证Mantis的能力。第一个场景测试机器人的世界知识,比如当你说"把杯子放到泰勒·斯威夫特身上"时,机器人需要知道泰勒·斯威夫特是谁,并在照片中找到她。第二个场景测试基础推理能力,比如"把熊放到数字(3+5)上",机器人需要计算出结果是8。第三个场景测试意图理解,比如当你说"我饿了,你能帮忙吗?"时,机器人需要理解你是想要食物,然后去拿面包。

测试结果显示,Mantis在所有三个场景中都明显优于当前领先的开源机器人模型π0.5。特别是在处理从未见过的指令时,Mantis表现出了强大的泛化能力,而π0.5几乎无法处理这些新颖的指令。这证明了语言监督训练对保持机器人理解和推理能力的重要性。

研究团队还深入分析了系统各个组件的贡献。他们发现,视觉预见模块的确能显著提升动作学习效果,而其中的残差连接设计(一种让信息能够"跳跃传递"的技术)对于捕捉潜在动作信息至关重要。更有趣的是,使用人类操作视频进行预训练比从零开始训练效果更好,这说明机器人可以从观察人类行为中学到有价值的操作模式。

当然,这项研究也有一些局限性。在真实世界的操作中,机器人偶尔会出现轻微的动作回退,这主要是因为系统缺少机器人自身状态信息的输入。研究团队表示,未来将致力于整合更丰富的输入信息,比如3D点云数据,并进一步优化推理速度。

这项研究的意义远不止于技术突破本身。它为机器人技术开辟了一条新的发展道路,证明了通过巧妙的系统设计,可以让机器人同时具备出色的操作技能和强大的语言理解能力。这种平衡对于未来机器人真正融入人类生活至关重要。

展望未来,具备视觉预见能力的机器人可能会彻底改变我们的日常生活。从家庭清洁到医疗护理,从工厂生产到服务行业,这些能够"看前想后"的智能助手将为人类提供更加精准、高效和贴心的服务。而Mantis作为这个领域的重要里程碑,为实现这个美好愿景迈出了坚实的一步。

Q&A

Q1:Mantis的核心技术优势是什么?

A:Mantis的核心优势在于"解耦视觉预见"技术,它巧妙地将"看未来"和"做动作"两个任务分离处理,同时保持有效协作。这就像把原本捆绑的绳子分开,让每项任务都能发挥最佳效果,从而大幅提升机器人的学习效率和操作精度。

Q2:Mantis相比其他机器人系统有什么实际表现优势?

A:Mantis在LIBERO测试中达到96.7%成功率,超越了OpenVLA、π0等先进系统。更重要的是学习速度显著提升,传统方法需要十几个训练周期的效果,Mantis几个周期就能实现。在真实场景测试中,特别是处理新指令时,Mantis表现远优于当前最好的开源模型π0.5。

Q3:Mantis如何平衡计算效率和性能?

A:Mantis采用"自适应时序集成"技术,像智能节能开关一样根据任务复杂度自动调整计算资源。精细操作时启用更多计算确保稳定性,简单移动时自动降低计算强度。这种设计将推理计算量减少50%,同时保持相同任务成功率,大大提升了实用性。

来源:https://www.163.com/dy/article/KJBJOMP20511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

IP SH城市视觉版权交易系统五年焕新升级
科技数码
IP SH城市视觉版权交易系统五年焕新升级

寻找上海的城市视觉素材,既要新、又要多、还得可靠,有没有一个地方能同时满足这些要求? 最近有个平台做了件挺实在的事。IP SHANGHAI,这个上海的城市形象资源共享平台,为了庆祝上线五周年,对其视觉版权交易系统进行了一次重要升级。核心变化在于,创作者现在可以自主为上传的原创图片和视频设定价格,而使

热心网友
05.12
美剧续作越拍越好的反常识密码
娱乐
美剧续作越拍越好的反常识密码

续集魔咒是 Hollywood 铁律——《Beef》第二季却打破了它 说来有趣,这部口碑不降反升的亚裔复仇剧续作,让观众印象最深的,往往不是那些戏剧性的剧情转折,而是每一集里一闪而过的怪诞画作。这本身,就挺反常的。 正方:视觉符号才是续作的灵魂 通常来说,续集为了维持热度,要么堆砌新角色,要么制造更

热心网友
04.26
港中大突破:单GPU实现对话驱动多镜头好莱坞级视频生成能力提升
科技数码
港中大突破:单GPU实现对话驱动多镜头好莱坞级视频生成能力提升

从单镜头到电影叙事:交互式AI视频生成的技术突破 这项由香港中文大学多媒体实验室、快手科技以及香港创新科技研究院联合开展的研究,已于2026年3月发表在计算机视觉顶级会议上,论文编号为arXiv:2603 25746v1。对技术细节感兴趣的读者,可以通过该编号查阅完整的学术论文。 当前的AI视频生成

热心网友
04.17
原生Steam Link应用登陆苹果Vision Pro头显,支持4K游戏串流
科技数码
原生Steam Link应用登陆苹果Vision Pro头显,支持4K游戏串流

原生Steam Link应用正式登陆苹果Vision Pro,实现4K高清游戏串流体验 游戏玩家们迎来重磅消息。根据知名科技媒体9to5Mac的报道,Valve已正式推出专为visionOS系统开发的原生Steam Link应用测试版。苹果Vision Pro用户现在即可通过TestFlight平台

热心网友
04.14
机器人舞姿爆红背后:具身智能行业“卡脖子”难题,终于有了新解法
AI
机器人舞姿爆红背后:具身智能行业“卡脖子”难题,终于有了新解法

头图由智象未来AI大模型生成智东西作者 王涵编辑 漠影在演唱会、各大晚会的舞台上,机器人伴舞团以整齐划一、精准卡点的舞姿惊艳全场。这种整齐划一不仅是硬件的胜利,更是“训练有素”的结果。具身智

热心网友
04.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

峡谷唱片碎片全收集攻略 西土地区唱片位置详解
游戏攻略
峡谷唱片碎片全收集攻略 西土地区唱片位置详解

峡谷区域唯一唱片需集齐三个碎片合成。首个碎片位于地图西北角木箱木桶旁,外观如跳动火焰。集齐碎片可解锁新内容并提升游戏体验,探索时留意细节可能发现更多隐藏惊喜。

热心网友
05.12
西土唱片碎片收集攻略与获取方法详解
游戏攻略
西土唱片碎片收集攻略与获取方法详解

《遥遥西土》中,西土唱片需集齐三个碎片合成。首个碎片位于地图东南角的管子洞内,获取过程简单,无复杂谜题或战斗。整体流程清晰,玩家按指引收集全部碎片即可合成唱片,轻松完成收集任务。

热心网友
05.12
鸣潮联动赛博朋克边缘行者新角色副本上线
游戏攻略
鸣潮联动赛博朋克边缘行者新角色副本上线

《鸣潮》联动《赛博朋克:边缘行者》,推出五星角色露西与丽贝卡,可通过限定卡池与活动免费获取。联动包含专属剧情、夜之城风格场景及高难度BOSS战,并植入动画经典音乐。参与预热活动和完成剧情任务可获得限定奖励,全方位打造沉浸式赛博朋克体验。

热心网友
05.12
万物皆可蟹进化攻略:混沌爪牙基因与鼻噶流玩法解析
游戏攻略
万物皆可蟹进化攻略:混沌爪牙基因与鼻噶流玩法解析

鼻噶流”玩法围绕“混沌爪牙”基因展开,开局以小体型角色灵活发育,注重走位与策略而非堆叠体型与伤害。该玩法在较高难度下提供了与传统平推思路不同的趣味体验,适合追求新鲜操作感的玩家尝试。

热心网友
05.12
异环S级气态弧盘获取攻略 好狗狗走四方任务详解
游戏攻略
异环S级气态弧盘获取攻略 好狗狗走四方任务详解

《异环》S级气态弧盘“好狗狗走四方”可提升充能与全队攻击,适合早雾等辅助。完成主线任务“成交?成交!”后解锁番外副本“月光当铺”,首次击败BOSS墨菲克斯即可免费获取。战斗时建议中距离拉扯,优先清理小狼,搭配破韧与输出角色更易通关。

热心网友
05.12