首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
OnePoseViaGen破解3D位姿估计瓶颈,助力机器人视觉

OnePoseViaGen破解3D位姿估计瓶颈,助力机器人视觉

热心网友
24
转载
2025-12-09

当快递分拣中心的机器人精准地将包裹送入对应货架,当维修人员戴上AR眼镜就能看到虚拟图纸与机械零件完美重合,这些令人惊叹的场景背后,都依赖于一项名为6D位姿估计的关键技术。这项技术让机器不仅能感知物体的三维位置,还能精确识别其空间姿态——就像人类能瞬间判断杯子是正放还是倒置、距离自己多远一样,机器正在获得类似的视觉空间理解能力。

在工业制造领域,机械臂需要精确识别零件位置和角度才能完成组装;自动驾驶汽车必须实时感知周围车辆的方位和朝向;增强现实应用则依赖将虚拟物体与真实场景无缝融合。然而,传统6D位姿估计技术面临重大挑战:预扫描的CAD模型往往缺失,多角度拍摄不切实际,单视角重建又存在尺度模糊问题。尽管学界早已认识到单幅图像实现可靠6D位姿估计的重要性,但长期以来这被视为几乎不可能完成的任务。

北京智源研究院联合清华大学、南洋理工大学等机构提出的OnePoseViaGen框架,为破解这一难题开辟了新路径。该框架创新性地将单视图3D生成技术与生成式领域随机化相结合,仅需单张参考图像即可实现未知物体的高精度6D位姿估计。这项突破性技术采用"单视图3D生成-尺度位姿联合优化-生成式领域增强"的端到端解决方案,彻底改变了传统需要多视角或预建模的限制。

技术实现过程分为三个关键阶段。首先通过实例分割工具(如SAM 2)精准提取目标物体,消除背景干扰;接着利用Image-to-Normal工具获取物体表面法线信息,这些反映物体凹凸结构的向量数据与RGB图像共同输入改进型Hi3DGen模型;最终生成归一化的3D纹理网格模型。这个保留物体精细特征的模型虽无实际物理尺度,但为后续处理奠定了基础。

针对单视图重建的尺度模糊难题,研究团队设计了"粗精两步对齐"策略。粗对齐阶段通过多视角渲染和2D特征匹配,结合深度信息与PnP算法估算初始位姿和模糊尺度,再通过优化3D点云重投影误差确定精确全局尺度;精对齐阶段采用类似FoundationPose的迭代优化框架,不断渲染比较并预测位姿增量,同步优化尺度直至收敛。这种创新方法成功解决了归一化模型与真实世界的尺度对齐问题。

为弥合生成模型与真实图像的域差异,研究团队引入文本引导的生成式领域随机化技术。该技术为同一物体生成多种纹理变体(如花纹、纯色、磨砂等不同外观的杯子),在虚拟环境中模拟不同光照、背景和遮挡条件,构建大规模合成数据集。用这些数据微调位姿估计网络后,系统对真实场景的适应能力显著提升,尤其在低纹理、高遮挡等复杂条件下表现优异。

实验验证环节,该技术在YCBInEOAT等主流6D位姿估计基准数据集上表现突出,ADD指标平均精度达81.27%,较基线方法提升近一倍。在复杂光照和高遮挡场景测试中,系统同样保持高鲁棒性。更令人瞩目的是真实机器人实验:搭载灵巧手的ROKAE机械臂和AgileX PiPER双臂机器人,在15类物体的单臂抓取-放置和双臂协作任务中,30次实验成功率极高,精度达到亚厘米级,即使在动态遮挡场景下也能稳定工作。

这项突破对多个领域具有变革意义。工业生产线可快速适应新产品,无需预先建立精细3D模型,大幅降低自动化改造成本;物流机器人能处理各种形状尺寸的包裹,实现真正柔性分拣;家庭服务机器人可快速学习新物体,准确理解"拿红色杯子"等指令;文化遗产保护领域则能通过简单拍照获取文物精确三维信息。相较于传统需要精密传感器和复杂校准的6D位姿估计技术,OnePoseViaGen仅需单张照片即可实现高精度估计,这种"降维打击"式的创新为其大规模应用开辟了广阔前景。

来源:https://www.itbear.com.cn/html/2025-09/973906.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

刑事案件电子数据取证密码获取程序拟明确
业界动态
刑事案件电子数据取证密码获取程序拟明确

公安部就电子数据取证规则公开征求意见,拟将网络安全等行政案件纳入适用范围,并规范取证流程与核心概念。新规特别明确了获取密码、调取通讯内容等特殊程序,需经严格审批并保障当事人权利。配套法律文书也同步优化,以构建更规范且注重权利保障的取证体系。

热心网友
05.23
小鹏G9降价12万背后何小鹏的豪赌与挑战
业界动态
小鹏G9降价12万背后何小鹏的豪赌与挑战

理想L9和LIvis的定价策略刚掀起波澜,小鹏GX的最终价格就给出了更猛烈的回应——从近40万元的预售价直降至27万元起。用小鹏产品矩阵负责人吴安飞的话说,这叫“9系的产品,8系的价格”。 这12万元的下调,效果堪称立竿见影。发布会次日,小鹏集团港股股价一度大涨超8%。更关键的是市场订单:上市12小

热心网友
05.23
魏建军感谢于东来支援环塔拉力赛 红牛千箱胖东来厨师助阵
业界动态
魏建军感谢于东来支援环塔拉力赛 红牛千箱胖东来厨师助阵

5月21日,环塔拉力赛新疆且末赛段大营迎来了一位备受瞩目的访客——知名零售企业胖东来的创始人于东来。他专程前往长城汽车车队营地,与参赛车手及后勤团队进行了深度交流。据悉,于东来此次自驾越野之旅已历时一月,随行车队中包含多款国产越野车型。经过实地驾驶与多维度对比,他对以长城汽车为代表的国产越野车品质给

热心网友
05.23
2026年比特币官方APP下载入口及官网安全访问指南
web3.0
2026年比特币官方APP下载入口及官网安全访问指南

比特币官方入口在哪里?一个核心门户的权威指南 说起比特币,很多人第一反应是去找它的“官网”或“官方App”。但这里有个关键点需要先理清:比特币本质上是一种去中心化的全球数字货币,它不属于任何一家公司或机构,而是由一个庞大的、遍布全球的社区共同维护。因此,它并没有传统意义上由某个企业运营的“官方网站”

热心网友
05.23
蚂蚁开源万亿参数思考模型Ring-2.5-1T详解
AI资讯
蚂蚁开源万亿参数思考模型Ring-2.5-1T详解

Ring-2 5-1T是什么 在当今大模型技术激烈竞争的赛道上,追求更长的上下文处理能力和更强大的深度推理性能已成为核心焦点。近日,蚂蚁集团旗下的inclusionAI团队重磅开源了Ring-2 5-1T模型,这是一个参数规模高达万亿级别的混合线性思考大语言模型。该模型基于先进的Ling 2 5架构

热心网友
05.23