首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
GeoVLA框架重构机器人空间感知,突破2D视觉局限

GeoVLA框架重构机器人空间感知,突破2D视觉局限

热心网友
28
转载
2025-12-25





论文名称: GeoVLA: Empowering 3D Representation in Vision-Language-Action Models

在具身智能的浪潮中,VLA 模型被视为通往通用机器人的快车道。然而,随着研究深入到非结构化环境,现有 VLA 模型面临着一个严重的维度缺陷:空间失明。

目前,大多数 VLA 模型(比如 OpenVLA、RT-2、Pi0、Pi05)单纯依赖 2D RGB 图像作为视觉输入,导致模型眼中的世界“纸片化”,严重缺乏深度信息和几何先验;由此带来的后果是:

深度感知缺失:面对需要精确距离判断的任务,比如精准投篮、挂扣环,2D 模型往往“抓瞎”,无法准确预测 Z 轴的动作。

空间适应性差:一旦物体尺寸发生变化(Scale Variance)或相机视角发生偏移(Viewpoint Shift),便无法理解物体在空间中的本质位置,导致任务失败。



图 1:GeoVLA 整体示意图

Dexmal 原力灵机作者团队提出一种全新的 VLA 框架 GeoVLA,它在保留现有视觉-语言模型(VLM)的预训练能力的同时,采用了一种优雅的双流架构(Dual-path Architecture)。

具体而言,GeoVLA 在保留 VLM 强大的语义理解能力的同时,引入专用的点云嵌入网络 PEN 和空间感知动作专家 3DAE,直接利用深度图生成的点云数据,赋予机器人真正的三维几何感知能力。

这一设计不仅在仿真环境中取得 SOTA,更在真实世界的鲁棒性测试中,特别是在视角改变和物体尺度变化的极端条件下,展现出惊人的适应力。

方法框架

常见的做法试图让一个 VLM 既懂语义又懂几何,这往往顾此失彼;GeoVLA 的核心逻辑是选择把任务解耦:让 VLM 负责“看懂是什么”,让点云网络负责“看清在哪里”。



图2:GeoVLA 框架图

GeoVLA 是一个全新的端到端框架,其流程包含三个关键组件的协同工作:

语义理解流:利用预训练的 VLM(如 Prismatic-7B)处理 RGB 图像和语言指令,提取融合后的视觉-语言特征。

几何感知流:利用点云嵌入网络 PEN 处理由深度图转换而来的点云,独立提取高精度的 3D 几何特征。

动作生成流:通过3D 增强动作专家 3DAE 融合上述两种特征,生成精确的动作序列。

点云嵌入网络 PEN



图 3:双路径点云嵌入网络细节图

原始深度图往往包含大量噪声,且数据稀疏,直接作为输入效果不佳。点云嵌入网络 PEN 专为机器人操作设计,采用双路径架构来提取干净且紧凑的几何特征:

几何特征提取:使用大核卷积和局部池化的轻量级 CNN,将非结构化的点云编码为 Patch 级别的几何 Token。

空间位置编码:引入在大语言模型中常见的旋转位置编码 RoPE,它能极好地保留 3D 空间中的相对位置信息,这对于操作任务至关重要。

空间锚点(Spatial Anchor)设计是 PEN 的一大亮点。作者团队并没有简单地对所有点云特征进行平均池化,而是选择对应于末端执行器坐标原点的 Token 作为“锚点”。这种以“手”为中心的视角设计,让模型能够显式地建模“手”与“物体”之间的几何关系,大幅提升操作精度。

3D 增强动作专家 3DAE

特征提取只是第一步,如何有效融合 RGB 的语义信息和点云的几何信息,实现1+1>2的效果,是多模态研究当中的难点。作者团队在动作生成端采用基于扩散 Transformer (DiTs) 的架构,并创新性地引入混合专家 (MoE) 机制。

静态路由策略 (Static Routing):这是一个直觉且有效的策略。在训练过程中,由于 VLM 分支是预训练的,而点云分支是从头开始学,如果使用常规的动态路由,模型会倾向于走捷径,只依赖 VLM 分支,忽略点云信息。

强制解耦:作者团队采用了静态路由,随机丢弃某种模态,逼迫模型必须学会独立利用几何信息来解决问题,从而确保了双流信息的有效融合。

实验结果

GeoVLA 在仿真和真机实验中均展现出对传统 2D VLA 模型的压倒性优势,证明显式 3D 表征在复杂操作中的不可替代性。

仿真环境测试结果



表 1:LIBERO 评测结果

在 LIBERO 基准测试中,GeoVLA 超越所有任务套件。在最具挑战性的 LIBERO-90(长程多任务)中,GeoVLA 达到 97.7% 的成功率,超越之前的 SOTA 方法 OpenVLA-OFT (95.3%) 和 CogACT (93.2%)。



表 2:ManiSkill2 评测结果

在物理仿真更为逼真的 ManiSkill2 中,GeoVLA 优势更加明显,平均成功率达到 77%,大幅领先 Dita (66%) 和 CogACT (69%);特别是在 PickClutterYCB 这种物体堆叠杂乱、遮挡严重的任务中,GeoVLA 凭借点云带来的几何理解,保持了极高的操作精度。

真机环境与鲁棒性测试



图 4:真机实验任务的变体展示

作者团队使用 WidowX-250s 机械臂进行了广泛的真机测试;实验被分为“基础任务”和“3D 感知任务”。在域内任务中,GeoVLA 在基础任务上平均成功率 95.0%,在 3D 感知任务上为 77.5%,总体平均 86.3%,大幅领先 Pi0 (57.5%) 和 CogACT (76.3%)。特别是在 Put Basketball 和 Put Hairclip 等需要精确空间理解的任务中,GeoVLA 表现出更好的鲁棒性。



表 4:真机任务评测结果

更令人印象深刻的是 GeoVLA 在分布外(OOD)场景下的鲁棒性,这也是 GeoVLA 最核心的突破点:



表 5(左):投篮任务变体的评测结果;表 6(右):套娃任务变体的评测结果

投篮任务变体(高度变化):当篮筐高度被调整到训练数据未覆盖的最高位置 (H1) 时,依赖 2D 视觉的 CogACT 和 Pi0 彻底失效,成功率降至 20%;而 GeoVLA 凭借点云信息,依然保持 60% 的成功率。

套娃任务变体(尺寸变化):面对比训练时大一号的套娃,2D 模型往往因为像素特征不匹配而无法识别;GeoVLA 则通过几何形状匹配,保持了 80% 的高成功率。

堆叠积木任务变体(视角变化):堆叠积木时,当相机视角偏移 45°,CogACT 成功率直接归零,说明 2D 模型极度依赖特定视角的像素记忆;而 GeoVLA 依然稳健,保持 70% 的成功率,证明其学到了真正的 3D 空间结构。

胡萝卜任务变体(移除海绵垫):训练时使用的海绵垫在推理阶段被移除,胡萝卜位置被降低,导致大多数方法抓取胡萝卜失败;GeoVLA 则能更稳定且成功抓取,展现出更强的泛化能力。

结论

来源:https://www.163.com/dy/article/KHL35SGL0511FMIQ.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

上海科大与腾讯研发3D动态物品积木式AI生成技术
科技数码
上海科大与腾讯研发3D动态物品积木式AI生成技术

这项由上海科技大学联合腾讯混元团队共同完成的研究发表于2026年3月的arXiv预印本平台,论文编号为arXiv:2603 01142v1。对于想要深入了解技术细节的读者,可以通过该编号查询完整的学

热心网友
03.10
字节跳动发布全新模型:从任意图片生成3D场景
科技数码
字节跳动发布全新模型:从任意图片生成3D场景

说到3D视觉重建技术,大多数人可能会觉得这是个高深莫测的科学领域。但实际上,这项技术正在悄悄改变我们的生活方式。从手机拍照的景深效果,到电影中逼真的特效场景,再到自动驾驶汽车对周围环境的理解,3D视

热心网友
01.23
英伟达联合POSTECH突破:分位数渲染技术提升3D渲染真实感
科技数码
英伟达联合POSTECH突破:分位数渲染技术提升3D渲染真实感

这项由NVIDIA公司与韩国POSTECH大学联合开展的研究发表于2025年12月,研究成果以 "Quantile Rendering: Efficiently Embedding High-dime

热心网友
01.02
GeoVLA框架重构机器人空间感知,突破2D视觉局限
科技数码
GeoVLA框架重构机器人空间感知,突破2D视觉局限

论文名称: GeoVLA: Empowering 3D Representation in Vision-Language-Action Models在具身智能的浪潮中,VLA 模型被视为通往通用机

热心网友
12.25

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

广东无人机飞行空域最新调整范围扩大详解
科技数码
广东无人机飞行空域最新调整范围扩大详解

广东无人机适飞空域扩大16%至10 24万平方公里,覆盖全省57%陆地面积,滨海、郊野、工业园区及非核心城区公园等区域开放,深圳市区新增连片适飞区。飞行需通过民航局UOM平台提前申请,严禁“黑飞”,违者将受处罚。平台已升级,实现全国规则统一与分钟级空域更新,支持低空物流与巡检等应用。

热心网友
05.18
iPhone 17 Pro杭州门店抢购火爆 七千元起售迅速售罄
科技数码
iPhone 17 Pro杭州门店抢购火爆 七千元起售迅速售罄

杭州Costco门店因iPhone17系列手机引发抢购热潮,数百人排队致迅速断货。抢购源于官方降价与地方补贴叠加:iPhone17Pro全系直降千元,同时当地青年消费补贴可再减10%,最高省千元。双重优惠下,256GB版iPhone17Pro到手价低至7172元,较电商平台便宜近千元,吸引本地及周边消费者。目前门店仍处缺货状态,补货时间未定。

热心网友
05.18
千帆星座第九批组网卫星成功发射升空
科技数码
千帆星座第九批组网卫星成功发射升空

5月17日晚,长征八号运载火箭在海南商业航天发射场点火升空,成功将千帆星座第九批组网卫星送入预定轨道。此次发射是该发射场启用以来的第15次成功发射,也是今年第5次发射,体现了我国商业航天发射能力的日益成熟和常态化运营的稳步推进。

热心网友
05.18
七彩虹iGame M15/M16 Origo游戏本2026款上市 首发11499元起
科技数码
七彩虹iGame M15/M16 Origo游戏本2026款上市 首发11499元起

七彩虹新款iGameM15 M16Origo2026款游戏本已发售,起售价11499元。M15为15 3英寸黑色机身,配备2 5K300Hz屏,最高可选Ultra9处理器与RTX5070显卡。M16为16英寸白色款,屏幕规格相同,处理器性能更强,电池容量更大。两款均提供多种配置,享受国家补贴后价格更具竞争力,面向中高端游戏玩家与创作者。

热心网友
05.18
联想ThinkPad T14 Gen 7发布 支持LPCAMM2可更换内存
科技数码
联想ThinkPad T14 Gen 7发布 支持LPCAMM2可更换内存

联想在北美市场推出新款ThinkPadT14Gen7商务笔记本,支持用户自行更换LPCAMM2内存。该机型提供多款英特尔酷睿Ultra处理器选项,内存可选16GB至64GB,电池与屏幕亦有多种配置,其中顶配版搭载OLED屏幕。产品起售价为1618美元,高配版本价格超过3700美元,主要面向商用及专业办公市场,兼顾性能、可升级性与不同预算需求。

热心网友
05.18