GeoVLA框架重构机器人空间感知，突破2D视觉局限

首页/科技数码/文章详情

GeoVLA框架重构机器人空间感知，突破2D视觉局限

时间：2025-12-25 19:04

论文名称： GeoVLA: Empowering 3D Representation in Vision-Language-Action Models在具身智能的浪潮中，VLA 模型被视为通往通用机

论文名称： GeoVLA: Empowering 3D Representation in Vision-Language-Action Models

在具身智能的浪潮中，VLA 模型被视为通往通用机器人的快车道。然而，随着研究深入到非结构化环境，现有 VLA 模型面临着一个严重的维度缺陷：空间失明。

目前，大多数 VLA 模型（比如 OpenVLA、RT-2、Pi0、Pi05）单纯依赖 2D RGB 图像作为视觉输入，导致模型眼中的世界“纸片化”，严重缺乏深度信息和几何先验；由此带来的后果是：

深度感知缺失：面对需要精确距离判断的任务，比如精准投篮、挂扣环，2D 模型往往“抓瞎”，无法准确预测 Z 轴的动作。

空间适应性差：一旦物体尺寸发生变化（Scale Variance）或相机视角发生偏移（Viewpoint Shift），便无法理解物体在空间中的本质位置，导致任务失败。

图 1：GeoVLA 整体示意图

Dexmal 原力灵机作者团队提出一种全新的 VLA 框架 GeoVLA，它在保留现有视觉-语言模型（VLM）的预训练能力的同时，采用了一种优雅的双流架构（Dual-path Architecture）。

具体而言，GeoVLA 在保留 VLM 强大的语义理解能力的同时，引入专用的点云嵌入网络 PEN 和空间感知动作专家 3DAE，直接利用深度图生成的点云数据，赋予机器人真正的三维几何感知能力。

这一设计不仅在仿真环境中取得 SOTA，更在真实世界的鲁棒性测试中，特别是在视角改变和物体尺度变化的极端条件下，展现出惊人的适应力。

方法框架

常见的做法试图让一个 VLM 既懂语义又懂几何，这往往顾此失彼；GeoVLA 的核心逻辑是选择把任务解耦：让 VLM 负责“看懂是什么”，让点云网络负责“看清在哪里”。

图2：GeoVLA 框架图

GeoVLA 是一个全新的端到端框架，其流程包含三个关键组件的协同工作：

语义理解流：利用预训练的 VLM（如 Prismatic-7B）处理 RGB 图像和语言指令，提取融合后的视觉-语言特征。

几何感知流：利用点云嵌入网络 PEN 处理由深度图转换而来的点云，独立提取高精度的 3D 几何特征。

动作生成流：通过3D 增强动作专家 3DAE 融合上述两种特征，生成精确的动作序列。

点云嵌入网络 PEN

图 3：双路径点云嵌入网络细节图

原始深度图往往包含大量噪声，且数据稀疏，直接作为输入效果不佳。点云嵌入网络 PEN 专为机器人操作设计，采用双路径架构来提取干净且紧凑的几何特征：

几何特征提取：使用大核卷积和局部池化的轻量级 CNN，将非结构化的点云编码为 Patch 级别的几何 Token。

空间位置编码：引入在大语言模型中常见的旋转位置编码 RoPE，它能极好地保留 3D 空间中的相对位置信息，这对于操作任务至关重要。

空间锚点（Spatial Anchor）设计是 PEN 的一大亮点。作者团队并没有简单地对所有点云特征进行平均池化，而是选择对应于末端执行器坐标原点的 Token 作为“锚点”。这种以“手”为中心的视角设计，让模型能够显式地建模“手”与“物体”之间的几何关系，大幅提升操作精度。

3D 增强动作专家 3DAE

特征提取只是第一步，如何有效融合 RGB 的语义信息和点云的几何信息，实现1+1＞2的效果，是多模态研究当中的难点。作者团队在动作生成端采用基于扩散 Transformer (DiTs) 的架构，并创新性地引入混合专家 (MoE) 机制。

静态路由策略 (Static Routing)：这是一个直觉且有效的策略。在训练过程中，由于 VLM 分支是预训练的，而点云分支是从头开始学，如果使用常规的动态路由，模型会倾向于走捷径，只依赖 VLM 分支，忽略点云信息。

强制解耦：作者团队采用了静态路由，随机丢弃某种模态，逼迫模型必须学会独立利用几何信息来解决问题，从而确保了双流信息的有效融合。

实验结果

GeoVLA 在仿真和真机实验中均展现出对传统 2D VLA 模型的压倒性优势，证明显式 3D 表征在复杂操作中的不可替代性。

仿真环境测试结果

表 1：LIBERO 评测结果

在 LIBERO 基准测试中，GeoVLA 超越所有任务套件。在最具挑战性的 LIBERO-90（长程多任务）中，GeoVLA 达到 97.7% 的成功率，超越之前的 SOTA 方法 OpenVLA-OFT (95.3%) 和 CogACT (93.2%)。

表 2：ManiSkill2 评测结果

在物理仿真更为逼真的 ManiSkill2 中，GeoVLA 优势更加明显，平均成功率达到 77%，大幅领先 Dita (66%) 和 CogACT (69%)；特别是在 PickClutterYCB 这种物体堆叠杂乱、遮挡严重的任务中，GeoVLA 凭借点云带来的几何理解，保持了极高的操作精度。

真机环境与鲁棒性测试

图 4：真机实验任务的变体展示

作者团队使用 WidowX-250s 机械臂进行了广泛的真机测试；实验被分为“基础任务”和“3D 感知任务”。在域内任务中，GeoVLA 在基础任务上平均成功率 95.0%，在 3D 感知任务上为 77.5%，总体平均 86.3%，大幅领先 Pi0 (57.5%) 和 CogACT (76.3%)。特别是在 Put Basketball 和 Put Hairclip 等需要精确空间理解的任务中，GeoVLA 表现出更好的鲁棒性。

表 4：真机任务评测结果

更令人印象深刻的是 GeoVLA 在分布外（OOD）场景下的鲁棒性，这也是 GeoVLA 最核心的突破点：

表 5（左）：投篮任务变体的评测结果；表 6（右）：套娃任务变体的评测结果

投篮任务变体（高度变化）：当篮筐高度被调整到训练数据未覆盖的最高位置 (H1) 时，依赖 2D 视觉的 CogACT 和 Pi0 彻底失效，成功率降至 20%；而 GeoVLA 凭借点云信息，依然保持 60% 的成功率。

套娃任务变体（尺寸变化）：面对比训练时大一号的套娃，2D 模型往往因为像素特征不匹配而无法识别；GeoVLA 则通过几何形状匹配，保持了 80% 的高成功率。

堆叠积木任务变体（视角变化）：堆叠积木时，当相机视角偏移 45°，CogACT 成功率直接归零，说明 2D 模型极度依赖特定视角的像素记忆；而 GeoVLA 依然稳健，保持 70% 的成功率，证明其学到了真正的 3D 空间结构。

胡萝卜任务变体（移除海绵垫）：训练时使用的海绵垫在推理阶段被移除，胡萝卜位置被降低，导致大多数方法抓取胡萝卜失败；GeoVLA 则能更稳定且成功抓取，展现出更强的泛化能力。

结论

来源：https://www.163.com/dy/article/KHL35SGL0511FMIQ.html

点云模态机器人鲁棒性空间感知端到端框架正式版模型

上一篇日本AI产业崛起真相：巨额投资背后的战略与挑战 下一篇京东采销年薪25万揭秘：薪酬体系与晋升空间解析

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-01

优必选CEO周剑：家庭机器人生态核心投入过半精力

先说几个核心判断：优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上，直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进，现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景，另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间，技术路线尚未收敛

6月30日，申银万国在光连接系列研报中重点指出，MPO光连接器领域的投资机会值得高度关注。通俗来说，随着AI算力集群持续扩张，光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件，如今它直接决定着链路插损、可

科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上，区级部门一次性推出了7个AI“龙搭子”。其中，名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解，依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”，已在今年五一假期发布了内测版本。经过一个月市场验证后，该项目正式启动面向全社会的

科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日，南下资金持续大举买入港股，单日净流入金额高达58 95亿港元。接下来，我们直接盘点哪些个股获得资金青睐、哪些遭到减持：净买入方面，中芯国际领跑全场，单日吸金19 33亿港元；建滔积层板紧随其后，净买入10 59亿港元；腾讯控股获得7 65亿港元净流入；智谱（02513 HK）也有6 5

科技数码 · 2026-07-01

电动汽车电池新国标7月实施热失控不起火不爆炸

自2026年7月1日起，两项关乎电动汽车安全的核心强制性国家标准将正式实施，为行业加装“安全锁”——《电动汽车安全要求》（GB 18384-2025）与《电动汽车用动力蓄电池安全要求》（GB 38031-2025）同步落地。此次标准升级，从整车架构与电池系统两大维度，精准填补了近年来多起事故暴露出的