上海交大突破VLA空间感知难题 09B模型真机成功率高达90%_AI热点日报

上海交大突破VLA空间感知难题 09B模型真机成功率高达90%

类型：热点整理2026-05-26

机器人能够“看见”世界，但如何让它们“看准”并精准操作，一直是视觉-语言-动作模型面临的核心挑战。当前，大多数VLA模型主要依赖二维图像信息进行决策。一旦任务涉及精确抓取定位、精细物品摆放或需要理解复杂的物体间遮挡关系——这些对三维空间感知要求极高的场景，模型的成功率往往会显著下降。为机器人模型

机器人能够“看见”世界，但如何让它们“看准”并精准操作，一直是视觉-语言-动作模型面临的核心挑战。

当前，大多数VLA模型主要依赖二维图像信息进行决策。一旦任务涉及精确抓取定位、精细物品摆放或需要理解复杂的物体间遮挡关系——这些对三维空间感知要求极高的场景，模型的成功率往往会显著下降。

为机器人模型补全空间感知能力，业界主要有两种技术路径，但各自存在局限。显式3D方案依赖深度相机和点云重建，硬件链路复杂且对设备标定误差敏感；隐式3D方案尝试从RGB图像直接学习几何信息，虽免去了额外硬件，但许多方法依赖庞大的基础模型，导致训练与推理成本高昂。

为此，上海交通大学MINT实验室团队提出了一条创新的折中路径：Evo-Depth。这个仅约0.9B参数的轻量模型，无需增加硬件负担，而是通过一种紧凑的隐式深度编码技术，将三维空间感知能力“内嵌”到VLA模型的决策网络中，旨在同时兼顾仿真环境下的高性能与在真实机器人上的高效部署。

0.9B跑出90%真机成功率！上海交大为VLA补上空间感

其实际表现如何？在广泛的仿真基准测试中，它在Meta-World任务上达成率84.4%，在LIBERO任务上高达95.4%；在真实机器人操作平台上，平均成功率稳定在90%左右。在部署效率方面，模型仅需约3.2 GB显存，推理频率可达约12.3 Hz，满足实时控制需求。

目前，该项目的全部代码、预训练模型权重及完整训练脚本均已开源，便于研究和应用。

Evo-Depth的核心设计目标明确：从多视角RGB图像中提取紧凑的隐式深度表征，并以轻量化的方式将其融合进视觉-语言处理流程，最终通过基于流匹配的动作生成模型，输出精准、连续的操作指令。

0.9B跑出90%真机成功率！上海交大为VLA补上空间感

整个系统架构由三个核心模块协同工作：

1. IDEM：隐式深度编码模块。 该模块负责从多视角图像中高效提取隐式的深度与几何特征，其重点是理解空间布局和相对位置关系，而非生成计算密集的显式3D点云。IDEM骨干网络参数仅约0.13B，并采用了多视角深度预训练进行初始化，从而在轻量化的前提下引入了关键的几何先验知识。

2. SEM：空间增强模块。 该模块的作用是将隐式深度特征作为一种调制信号，来增强视觉与语言的联合表征。与增设独立深度分支的方案相比，这种融合方式更为高效：原有的视觉语言主干网络继续专注于语义理解，而深度特征则专门提供空间信息补充，同时严格控制由此带来的额外计算与显存开销。

3. 渐进式对齐训练策略。 为了解决多模块联合训练容易出现的优化不稳定问题，研究团队采用了分阶段的渐进式对齐训练。该方法依次完成深度表征对齐、多模态特征融合以及最终的动作策略学习。动作生成部分则采用了在VLA领域表现优异的流匹配技术。

在总参数量约0.9B的配置下，论文报告的关键性能指标如下：

特别值得注意的是，除了关注算法在标准测试集上的分数，该研究也明确给出了实际部署时的资源消耗与实时性指标。对于最终需要落地到真实机器人控制回路中的VLA系统而言，这些部署效率指标与任务成功率同等重要。

本质上，Evo-Depth致力于解决一个经典的机器人学工程难题：如何在不大幅增加系统整体复杂度与资源消耗的前提下，有效提升视觉-语言-动作模型对三维空间的理解与精细操作能力。

从实验结果看，它似乎找到了一个巧妙的平衡点——相较于纯二维的VLA模型，它补充了至关重要的空间几何信息；而相较于那些更“重型”的显式或复杂隐式3D方案，它又较好地保持了模型的轻量化与部署的实用性。

对于深耕机器人灵巧操作、空间人工智能或VLA系统研发的团队而言，这类在模型性能、计算成本与系统实时性之间寻求精妙平衡的技术方案，其价值正日益凸显，为机器人走向更复杂、更真实的作业环境提供了新的思路。

来源：https://www.aitntnews.com/newDetail.html?newId=25506

上海交大

补充最近整理过的热点入口。