首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
北京大学Imagine2Act机器人框架:先想象再动手解决精细家务难题

北京大学Imagine2Act机器人框架:先想象再动手解决精细家务难题

热心网友
16
转载
2026-05-28

来源:微信公众号“北京大学前沿计算研究中心”

原文链接:https://mp.weixin.qq.com/s/IudCZqnBIPFIXtqGwk6Q2Q

论文地址:https://arxiv.org/abs/2509.17125

你是否期待机器人能帮你完成插花、叠放杯子、将盘子精准放入碗架这类精细家务?这些对人类而言简单的动作,对机器人来说却是巨大的挑战。它不仅需要理解“把花插入花瓶”的语义指令,还必须精确控制末端执行器,以毫米级的精度对准瓶口。这正是当前家庭服务机器人面临的核心技术瓶颈:关系性物体重排任务。

近期,北京大学董豪团队的一项突破性研究为此带来了全新解决方案。他们提出的Imagine2Act框架,创新性地让机器人学会“先想象目标场景,再执行精准动作”,在仿真与真实机器人实验中均展现出卓越的操作精度。这项重要成果已被机器人领域顶级国际会议ICRA 2026接收。

研究背景:关系性物体重排的挑战

关系性物体重排任务要求机器人根据特定语义关系摆放物体,例如“将笔插入笔筒”、“将餐盘放入碗架”。此类任务的核心难点在于,机器人不仅需要理解高层语义,还必须满足极其严格的几何空间约束。例如,盘子必须垂直对准碗架狭窄的卡槽,笔尖需精确对准笔筒开口,其容错空间往往仅有几毫米。

现有主流方法在此类任务上遭遇显著瓶颈。传统的3D模仿学习方法直接从RGB-D图像映射到动作,缺乏对物体间复杂几何关系的显式推理能力,学到的约束是隐式的,导致在高精度对齐任务中性能极不稳定。另一些方法尝试利用生成模型先“想象”出目标场景布局,为策略提供先验。然而,这些方法要么直接将生成的物体变换作为动作执行,导致生成噪声在动作序列中累积放大;要么仅将生成结果作为策略的松散辅助输入,未能建立动作与几何约束之间的强关联,最终效果大打折扣。

为此,Imagine2Act框架应运而生。其核心目标明确:将物体的语义几何约束,扎实、显式地融入到机器人策略的学习过程中,通过生成高质量的“想象目标”来引导和约束动作生成,最终实现毫米级精度的可靠操作。

核心方法:想象与执行的双重对齐

ICRA 2026|北京大学董豪团队Imagine2Act:让机器人“先想象、再动手”,攻克精细家务难题

如上图所示,Imagine2Act的架构清晰分为两大核心模块:语义几何约束生成模块,以及物体-动作一致性学习模块。整个流程可概括为:在执行前生成一个与真实场景几何对齐的“想象目标点云”,并在策略训练中通过创新的监督机制,确保机器人的动作轨迹与想象中的物体变换保持一致。

ICRA 2026|北京大学董豪团队Imagine2Act:让机器人“先想象、再动手”,攻克精细家务难题

上图详细展示了Imagine2Act两大核心模块的协同工作流程。

语义几何约束生成模块:构建对齐现实的想象目标

该模块的核心任务是根据自然语言指令(如“把杯子叠上去”),生成一个既符合语义关系、又与当前真实场景在几何上精确对齐的3D目标点云。整个过程分为三步,环环相扣:

第一步是视角一致的图像编辑。利用如GPT-Image等强大的视觉生成模型,输入机器人初始观测的场景图像和语言指令,生成一张任务完成后的目标场景图像。关键之处在于,生成图像必须严格保持与初始观测完全一致的相机视角,这为后续的3D几何对齐奠定了坚实基础。

第二步是前景物体的点云重建。为了最大限度减少生成过程引入的噪声,本研究采用了一个巧妙的策略:仅改变与任务相关的物体,而保持场景背景不变。具体而言,首先使用分割模型(如Grounded-SAM)从生成图像中精确分割出前景物体(即需要移动的物体及其关联的锚定物体),随后利用3D重建模型(如TripoSR)为这些前景物体生成对应的3D点云。这些点云编码了任务所要求的精确几何约束。

第三步是几何对齐与场景拼接。从机器人的初始观测中,精确估计出锚定物体(如花瓶、碗架)在真实世界中的6D姿态。随后,将上一步生成的前景物体点云,依据此姿态和合适的比例,“安装”到世界坐标系中。背景点云则直接从初始观测中提取并保持不变。最终拼接得到的,就是一个既蕴含任务语义布局,又与真实环境严丝合缝的“想象目标点云”。

获得这个高质量的点云后,可将其投影为RGB图像和深度图像,从而像处理普通观测数据一样提取视觉特征,作为策略网络额外的、富含几何先验的输入信号。

物体-动作一致性学习模块:实现动作与变换的软对齐

有了想象的目标点云,便可计算出可移动物体从初始位姿到目标位姿所需的刚体变换(旋转与平移)。一个直观的想法是:末端执行器直接操纵物体,其运动轨迹理应与物体的这个变换高度相似。但直接使用生成的变换作为动作监督存在陷阱——生成过程中任何微小的误差都会被直接传递并放大,导致动作失败。

Imagine2Act的创新在于设计了一套“双重对齐”机制,在利用强引导信号的同时,宽容地处理生成噪声:

一是编码变换Token。计算运动物体从初始状态到想象目标状态的旋转和平移变换,将其编码成一个紧凑的变换Token。这个Token与视觉特征、语言指令、历史状态等Token一同输入给动作生成模块,为预测动作提供了一个明确、可学习的物体运动先验。

二是软姿态一致性损失。设计了一个带自适应阈值的损失函数,它并非强制要求预测动作与物体变换完全一致,而是仅在两者偏差超过预设容忍度时才施加惩罚。该损失分别计算预测的末端执行器旋转与物体旋转之间的测地距离,以及平移之间的欧氏距离,并利用Sigmoid函数实现平滑的惩罚过渡。这种“软监督”方式,既充分利用了物体变换这一强引导信号来规范动作的大致方向,又容忍了生成过程中不可避免的噪声和微小偏差,有效防止了误差在动作序列中滚雪球式累积。

实验验证:仿真与真机表现卓越

为全面评估Imagine2Act的性能,研究团队在标准仿真环境RLBench和真实的机器人平台上进行了系统测试。任务设计紧密围绕家庭日常精细操作,并设置了包括3D Diffuser Actor、Imagine Policy在内的多个前沿基线模型进行对比。

仿真实验:高精度攻克家庭物体重排挑战

在RLBench仿真环境中,团队选取了Put-Knife(放刀)、Stack-Wine(叠酒杯)、Place-Cups(放置杯子)等7个具有挑战性的关系性重排任务。每个策略仅使用100条演示数据进行训练,并进行25轮测试评估。对比基线涵盖了基于3D场景表示的扩散策略、生成目标点云直接执行的策略以及基于点云Transformer的先进方法。

ICRA 2026|北京大学董豪团队Imagine2Act:让机器人“先想象、再动手”,攻克精细家务难题

实验结果非常突出。Imagine2Act在全部7个任务上的平均成功率高达0.79,显著优于所有基线模型。相较于3D Diffuser Actor,它通过引入显式的语义几何约束,大幅提升了机器人的空间推理精度;而与Imagine Policy相比,其物体-动作对齐机制有效阻断了生成噪声的直接传播,保证了动作的可靠性。

通过系统的消融实验,每个模块的贡献得到验证。完整模型(使用想象点云、变换Token和软损失)取得了0.79的成功率。当移除整个想象模块时,性能下降至0.67,凸显了语义几何先验的重要性。仅使用想象目标(而非真实目标)的配置取得了0.72的成功率,与使用真实目标状态的0.74非常接近,这证明了生成模块具有很高的质量。单独添加变换Token或软损失均能带来性能提升,且两者结合效果最佳,证实了双重对齐机制设计的有效性。

为测试框架的泛化能力,团队还在RLBench上额外评估了5个铰链物体操作任务(如关闭盒子、关闭抽屉)。Imagine2Act在这些任务上取得了与先进基线相当的性能,展示了其对不同任务类型的良好适应性。

真实世界实验:在噪声环境中稳定运行

ICRA 2026|北京大学董豪团队Imagine2Act:让机器人“先想象、再动手”,攻克精细家务难题

仿真表现优异,真机实战如何?如上图所示,研究团队在Franka Emika真实机器人平台上部署了Imagine2Act,执行叠杯子、关罐子、插花、放盘子等6个日常操作任务。

在充满光照变化、传感器噪声和物理不确定性的真实家庭模拟环境中,Imagine2Act取得了平均0.68的成功率,远高于3D Diffuser Actor基线0.43的成功率。这一结果强有力地证明,该框架不仅能够解决仿真任务,更能稳健地迁移到复杂的现实世界,具备实际部署应用的巨大潜力。

总结与未来展望

Imagine2Act的核心贡献在于,为机器人高精度操作引入了一套“先想象目标,再规划动作”的认知与执行闭环。通过生成与真实场景几何对齐的想象目标,它为机器人策略提供了丰富的语义与几何先验,弥补了传统方法在显式空间推理上的不足。更重要的是,其创新的物体-动作一致性学习机制,通过双重对齐在利用生成目标强大引导作用的同时,巧妙地规避了生成模型的误差累积问题,直击高精度机器人操作的核心痛点。

该框架在仿真和真实世界的多种家庭服务任务中均表现优异,为解决关系性物体重排这一机器人操作难题提供了一个可解释、可泛化的新范式。展望未来,进一步优化想象目标生成的效率与精度,并将该框架拓展至更多样、更复杂的家庭与服务机器人场景,将是接下来的研究重点。让机器人更精准、更智能地协助人类处理日常事务,距离其真正融入寻常百姓家,无疑又迈进了坚实的一步。

此项研究由北京大学前沿计算研究中心董豪副教授团队主导完成。该实验室长期专注于机器人视觉感知、灵巧物体操作、语义导航及具身智能决策等前沿方向,致力于为家庭服务、商业零售及工业制造等领域研发高性能、高性价比的智能机器人解决方案。

来源:https://www.leiphone.com/category/robot/PKWgXrnCrdFguoH2.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

北京大学新技术让AI看穿玻璃并识别倒影
AI资讯
北京大学新技术让AI看穿玻璃并识别倒影

这项由北京大学人工智能研究院(国家通用人工智能重点实验室,智能科学与技术学院)完成的研究,于2026年5月18日以预印本形式发布,论文编号为arXiv:2605 18263。 想象一下,你站在停车场,目光落在一辆银色轿车的车窗上。车窗清晰地倒映着蓝天白云和旁边的大楼,与此同时,你又能透过玻璃,看到车

热心网友
05.28
北京大学Imagine2Act机器人框架:先想象再动手解决精细家务难题
业界动态
北京大学Imagine2Act机器人框架:先想象再动手解决精细家务难题

北京大学董豪团队提出Imagine2Act框架,使机器人通过“先想象、再动手”完成精细家务。该框架生成与真实场景对齐的想象点云,提供语义几何约束,并设计物体-动作一致性学习模块,利用变换token和软姿态一致性损失引导动作,减少噪声累积。实验表明,该方法在仿真和真实环境中显著提升了关系性物体重排。

热心网友
05.28
北京大学研究揭示AI过度思考导致行为失真原因
AI资讯
北京大学研究揭示AI过度思考导致行为失真原因

你是否曾感觉,与AI对话时,对方的回答虽然“正确”,却总像在念剧本,缺乏真人那种鲜活的气息?让它扮演一个随性的年轻人,它可能输出一段激进的“躺平宣言”;模拟普通上班族的日常,回答又总是“教科书般正确”,缺少真实生活中常见的权衡与偶然性。 这种感觉并非错觉。一项由北京大学智能学院、元培学院、心理与认知

热心网友
05.15
北京大学首创智能视频助手可记忆人物与动作细节
AI资讯
北京大学首创智能视频助手可记忆人物与动作细节

追剧时突然想不起某个角色的过往经历,或者想快速找到剧中人物穿红色衣服的片段——这是许多观众都遇到过的困扰。传统视频播放器无法满足这类需求,观众只能依靠记忆或手动拖拽进度条来寻找。而现有的人工智能技术,虽然能回答关于静态图片的问题,但在处理连续动态的视频时,往往只能分析“当前画面”,缺乏像人类一样形成

热心网友
05.14
北京大学联合美团破解AI推理难题:多路径思考让AI更智能
AI资讯
北京大学联合美团破解AI推理难题:多路径思考让AI更智能

这项由北京大学国家软件工程研究中心与美团集团联合开展的研究发表于2026年2月,有兴趣的读者可通过arXiv预印本平台编号arXiv:2602 08344v1查阅完整论文。 面对复杂的数学难题,人类解题者通常会尝试多种思路——先用代数方法,不行再试几何法,或者从特殊情况入手。这种“多管齐下”的并行思

热心网友
05.12

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Paralives首发销量充足 支撑后续开发无需DLC
游戏攻略
Paralives首发销量充足 支撑后续开发无需DLC

《Paralives》开发商承诺所有后续更新永久免费,拒绝付费DLC模式。15人小团队依靠首发销售额即可支撑多年运营,无需依赖额外内容包维持开发,展现了与《模拟人生》系列不同的差异化竞争思路。

热心网友
05.28
比亚迪宋Ultra DM-i上市12.99万 承诺城市领航安全兜底
业界动态
比亚迪宋Ultra DM-i上市12.99万 承诺城市领航安全兜底

2025年5月28日,比亚迪王朝网全新力作——宋Ultra DM-i正式推向市场,共推出5款配置车型,官方售价区间为12 99万至15 99万元。此次定价策略极具突破性:一款拥有310公里纯电续航能力的中型插电混动SUV,直接下探至13万元级别市场。作为王朝网络的新旗舰,该车明确瞄准高频出行需求场景

热心网友
05.28
折叠屏iPhone Ultra外观已定,第三方保护壳亮相
科技数码
折叠屏iPhone Ultra外观已定,第三方保护壳亮相

先来关注一个有趣的细节:苹果首款折叠屏手机,传闻将于今年秋季正式亮相。产品命名可能为iPhone Ultra,也有媒体称之为iPhone Fold——无论最终叫什么,这都将标志着苹果在折叠形态领域首次“出手”。 近日,配件厂商iFunSmart已率先上架iPhone Ultra的首批保护壳——这绝非

热心网友
05.28
山寨币ETF批量上市后市场表现分析 哪些项目值得关注
web3.0
山寨币ETF批量上市后市场表现分析 哪些项目值得关注

山寨币ETF迎来批量上市潮,首批项目市场表现如何?一文分析 Binance币安 欧易OKX ️ Huobi火币️ 最近,市场出现了一个不容忽视的新动向:XRP、DOGE、LTC、HBAR等现货ETF已经悄然登陆美国市场。与此同时,A VAX、LINK等资产的同类产品也正在审批流程中。进入11月以来,

热心网友
05.28
即使在大幅涨价后 Steam Deck 玩家热情依旧再次售罄
游戏攻略
即使在大幅涨价后 Steam Deck 玩家热情依旧再次售罄

近日,公司对SteamDeck1TBOLED版涨价300美元至949美元,上架短短不到24小时便再度售罄。据外界分析,该公司从中国大量补货并分批投放库存,高溢价未影响众多玩家的抢购热情与速度,其人气极其旺盛无比足以支撑快速清空。

热心网友
05.28