上海交大团队突破：让机器人拥有视觉预见力

时间：2026-01-15 22:58

这项由上海交通大学、上海人工智能实验室、南京邮电大学、复旦大学和博世公司联合开展的研究于2025年11月发表在计算机视觉领域顶级会议上，论文编号为arXiv:2511 16175v1。研究团队的核心

这项由上海交通大学、上海人工智能实验室、南京邮电大学、复旦大学和博世公司联合开展的研究于2025年11月发表在计算机视觉领域顶级会议上，论文编号为arXiv:2511.16175v1。研究团队的核心成员包括杨毅、李学琦、陈一阳等多位来自不同机构的研究者，其中上海交大的邓志杰教授担任通讯作者。有兴趣深入了解的读者可以通过该论文编号查询完整研究内容。

想象一下，如果你的机器人助手在帮你收拾房间时，能够像经验丰富的管家一样提前"看到"下一步会发生什么——当它伸手去拿桌上的杯子时，它已经能预见到杯子被放到洗碗机里的画面。这种神奇的能力不再是科幻电影中的情节，上海交大的研究团队刚刚让这个想法变成了现实。

目前的机器人就像刚学会走路的孩子，它们只能看到眼前的东西，然后做出相应的动作。但问题在于，这种"走一步看一步"的方式让机器人的学习效率很低，就好比你试图通过只看一张张静态照片来学习如何骑自行车一样困难。研究团队发现，如果让机器人能够预见未来的画面，就像给它装上了"预言眼镜"，它的学习能力会大幅提升。

然而，让机器人学会预测未来画面并不简单。传统的方法就像让一个人同时学习开车、做数学题和背诗词一样，各种任务混在一起反而效果不佳。而且，现有的机器人往往在学习动作技能后，就忘记了如何理解和执行复杂的语言指令，就像一个专注于技术活的工人可能会忽略与客户的沟通一样。

研究团队提出的解决方案叫做Mantis，这是一个具有"解耦视觉预见"能力的全新框架。解耦的意思就像把原本捆绑在一起的几根绳子分开处理，让每根绳子都能发挥最佳作用。Mantis的核心创新在于把"看未来"和"做动作"这两个任务巧妙地分离开来，同时保持它们之间的有效协作。

这个系统的工作原理颇为巧妙。Mantis使用了一种叫做"潜在动作查询"的技术，这些查询就像是机器人大脑中的"动作侦探"，专门负责从当前画面和未来画面之间的变化中找出隐藏的动作信息。当机器人看到当前的场景时，这些"侦探"会自动捕捉到从现在到未来需要进行的关键动作，然后将这些信息传递给负责执行具体动作的模块。

更令人印象深刻的是，Mantis采用了一种渐进式的训练方法，就像教孩子学习一样，先从简单的开始，逐步增加难度。训练分为三个阶段：首先让机器人通过观看大量人类操作视频学会预测未来画面，这就像让孩子先看大人做事学习经验。然后引入真实的机器人操作数据，让它学会将预测能力与实际动作结合起来。最后加入语言理解训练，确保机器人在学会技能的同时不会忘记如何理解和执行人类的指令。

为了提高计算效率，研究团队还开发了一种叫做"自适应时序集成"的技术。这个技术就像一个智能的"节能开关"，它会根据当前任务的复杂程度自动调整计算资源的使用。当机器人在进行精细操作时，比如抓取一个易碎的物品，系统会启用更多的计算资源来确保动作的稳定性。而在进行简单移动时，系统会自动降低计算强度，从而将推理计算量减少了50%，同时保持相同的任务成功率。

实验结果令人振奋。在广泛使用的LIBERO仿真测试平台上，Mantis达到了96.7%的成功率，超越了包括OpenVLA、π0等在内的多个先进系统。更重要的是，Mantis展现出了显著更快的学习速度，传统的视觉预测方法需要十几个训练周期才能达到的效果，Mantis在几个周期内就能实现。

在真实世界的测试中，研究团队设计了三个不同的场景来验证Mantis的能力。第一个场景测试机器人的世界知识，比如当你说"把杯子放到泰勒·斯威夫特身上"时，机器人需要知道泰勒·斯威夫特是谁，并在照片中找到她。第二个场景测试基础推理能力，比如"把熊放到数字(3+5)上"，机器人需要计算出结果是8。第三个场景测试意图理解，比如当你说"我饿了，你能帮忙吗？"时，机器人需要理解你是想要食物，然后去拿面包。

测试结果显示，Mantis在所有三个场景中都明显优于当前领先的开源机器人模型π0.5。特别是在处理从未见过的指令时，Mantis表现出了强大的泛化能力，而π0.5几乎无法处理这些新颖的指令。这证明了语言监督训练对保持机器人理解和推理能力的重要性。

研究团队还深入分析了系统各个组件的贡献。他们发现，视觉预见模块的确能显著提升动作学习效果，而其中的残差连接设计（一种让信息能够"跳跃传递"的技术）对于捕捉潜在动作信息至关重要。更有趣的是，使用人类操作视频进行预训练比从零开始训练效果更好，这说明机器人可以从观察人类行为中学到有价值的操作模式。

当然，这项研究也有一些局限性。在真实世界的操作中，机器人偶尔会出现轻微的动作回退，这主要是因为系统缺少机器人自身状态信息的输入。研究团队表示，未来将致力于整合更丰富的输入信息，比如3D点云数据，并进一步优化推理速度。

这项研究的意义远不止于技术突破本身。它为机器人技术开辟了一条新的发展道路，证明了通过巧妙的系统设计，可以让机器人同时具备出色的操作技能和强大的语言理解能力。这种平衡对于未来机器人真正融入人类生活至关重要。

展望未来，具备视觉预见能力的机器人可能会彻底改变我们的日常生活。从家庭清洁到医疗护理，从工厂生产到服务行业，这些能够"看前想后"的智能助手将为人类提供更加精准、高效和贴心的服务。而Mantis作为这个领域的重要里程碑，为实现这个美好愿景迈出了坚实的一步。

Q&A

Q1：Mantis的核心技术优势是什么？

A：Mantis的核心优势在于"解耦视觉预见"技术，它巧妙地将"看未来"和"做动作"两个任务分离处理，同时保持有效协作。这就像把原本捆绑的绳子分开，让每项任务都能发挥最佳效果，从而大幅提升机器人的学习效率和操作精度。

Q2：Mantis相比其他机器人系统有什么实际表现优势？

A：Mantis在LIBERO测试中达到96.7%成功率，超越了OpenVLA、π0等先进系统。更重要的是学习速度显著提升，传统方法需要十几个训练周期的效果，Mantis几个周期就能实现。在真实场景测试中，特别是处理新指令时，Mantis表现远优于当前最好的开源模型π0.5。

Q3：Mantis如何平衡计算效率和性能？

A：Mantis采用"自适应时序集成"技术，像智能节能开关一样根据任务复杂度自动调整计算资源。精细操作时启用更多计算确保稳定性，简单移动时自动降低计算强度。这种设计将推理计算量减少50%，同时保持相同任务成功率，大大提升了实用性。

来源：https://www.163.com/dy/article/KJBJOMP20511DTVV.html

视觉动作解耦上海交大真实世界 ai机器人

上一篇阿里达摩院打造机器人神经系统：赋予机器预知未来能力 下一篇华为三年半采购额超750亿：问界百万销量背后的供应链

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-01

酷态科电能仓600开启预约同时充7台设备首发1299元

酷态科在户外电源市场又带来了一款重磅新品——电能仓600，今天（7月1日）上午官方微博正式宣布开启预约，7月7日上午10点开售。这款产品的定价相当有竞争力：日常价1399元，首发直接优惠至1299元。先聊聊它的核心参数：额定功率600W，但支持升维驱动至1000W。这是什么意思呢？像热水壶、养生壶

科技数码 · 2026-07-01

倍思四款旗舰降噪耳机搭载中科蓝讯BT8972H上市

近年来，主动降噪（ANC）与AI通话降噪（ENC）已成为TWS耳机的核心功能，消费者对耳机的期待也在持续攀升——既要通勤时的安静沉浸，又要通话时的清晰无扰。不过，真正将这两项性能打磨至行业顶尖水准的，往往取决于底层芯片的实力。中科蓝讯最新推出的BT8972H音频平台芯片，在ANC主动降噪和ENC通话

科技数码 · 2026-07-01

中科蓝讯BT8972H助力倍思四款旗舰降噪耳机上市

如今，主动降噪与AI通话降噪已成为TWS耳机市场的核心竞争领域。消费者对半入耳式和入耳式耳机在降噪、通透模式及高清通话方面的需求持续攀升，这对芯片方案的性能提出了更高要求。在此背景下，中科蓝讯推出全新一代BT8972H音频平台芯片，在ANC主动降噪与ENC环境降噪两大核心功能上实现了突破性升级。凭借

科技数码 · 2026-07-01

三星Galaxy Glasses功能曝光手势控制多设备联动

三星的下一代智能穿戴设备——Galaxy Glasses，近期因配套应用及演示内容曝光，再度向外界揭示了大量硬核细节。此次泄露的信息显示，这款智能眼镜并非孤立硬件，而是三星联手谷歌、Warby Parker以及Gentle Monster共同打造的成果，搭载Android XR平台，并运行三星自家的

科技数码 · 2026-07-01

AI助推网络攻击工具苹果提前发布iOS安全更新

据路透社今日凌晨报道，苹果公司在安全策略上做出了一项关键调整：为应对由AI加速开发的网络攻击工具所引发的安全风险，苹果决定将部分原本计划随新版iOS系统一同推送的更新，提前向所有用户开放。苹果官方给出的解释是，当前人工智能技术已能够显著提升恶意攻击工具的开发效率，因此安全更新从发布到抵达用户设备的