上海交大突破VLA空间感知难题 09B模型真机成功率高达90%
机器人能够“看见”世界,但如何让它们“看准”并精准操作,一直是视觉-语言-动作模型面临的核心挑战。
当前,大多数VLA模型主要依赖二维图像信息进行决策。一旦任务涉及精确抓取定位、精细物品摆放或需要理解复杂的物体间遮挡关系——这些对三维空间感知要求极高的场景,模型的成功率往往会显著下降。
为机器人模型补全空间感知能力,业界主要有两种技术路径,但各自存在局限。显式3D方案依赖深度相机和点云重建,硬件链路复杂且对设备标定误差敏感;隐式3D方案尝试从RGB图像直接学习几何信息,虽免去了额外硬件,但许多方法依赖庞大的基础模型,导致训练与推理成本高昂。
为此,上海交通大学MINT实验室团队提出了一条创新的折中路径:Evo-Depth。这个仅约0.9B参数的轻量模型,无需增加硬件负担,而是通过一种紧凑的隐式深度编码技术,将三维空间感知能力“内嵌”到VLA模型的决策网络中,旨在同时兼顾仿真环境下的高性能与在真实机器人上的高效部署。

其实际表现如何?在广泛的仿真基准测试中,它在Meta-World任务上达成率84.4%,在LIBERO任务上高达95.4%;在真实机器人操作平台上,平均成功率稳定在90%左右。在部署效率方面,模型仅需约3.2 GB显存,推理频率可达约12.3 Hz,满足实时控制需求。
目前,该项目的全部代码、预训练模型权重及完整训练脚本均已开源,便于研究和应用。
轻量化设计与端到端训练
Evo-Depth的核心设计目标明确:从多视角RGB图像中提取紧凑的隐式深度表征,并以轻量化的方式将其融合进视觉-语言处理流程,最终通过基于流匹配的动作生成模型,输出精准、连续的操作指令。

整个系统架构由三个核心模块协同工作:
1. IDEM:隐式深度编码模块。 该模块负责从多视角图像中高效提取隐式的深度与几何特征,其重点是理解空间布局和相对位置关系,而非生成计算密集的显式3D点云。IDEM骨干网络参数仅约0.13B,并采用了多视角深度预训练进行初始化,从而在轻量化的前提下引入了关键的几何先验知识。
2. SEM:空间增强模块。 该模块的作用是将隐式深度特征作为一种调制信号,来增强视觉与语言的联合表征。与增设独立深度分支的方案相比,这种融合方式更为高效:原有的视觉语言主干网络继续专注于语义理解,而深度特征则专门提供空间信息补充,同时严格控制由此带来的额外计算与显存开销。
3. 渐进式对齐训练策略。 为了解决多模块联合训练容易出现的优化不稳定问题,研究团队采用了分阶段的渐进式对齐训练。该方法依次完成深度表征对齐、多模态特征融合以及最终的动作策略学习。动作生成部分则采用了在VLA领域表现优异的流匹配技术。
在总参数量约0.9B的配置下,论文报告的关键性能指标如下:
- 仿真性能: Meta-World基准达成率84.4%、VLA-Arena 41.1%、LIBERO 95.4%、LIBERO-Plus 69.6%。
- 真机性能: 在真实机器人操作任务中,平均成功率约为90%。
- 部署开销: 仅需约3.2 GB GPU显存,推理频率可达约12.3 Hz。
特别值得注意的是,除了关注算法在标准测试集上的分数,该研究也明确给出了实际部署时的资源消耗与实时性指标。对于最终需要落地到真实机器人控制回路中的VLA系统而言,这些部署效率指标与任务成功率同等重要。
在性能、成本与实时性间寻求最佳平衡
本质上,Evo-Depth致力于解决一个经典的机器人学工程难题:如何在不大幅增加系统整体复杂度与资源消耗的前提下,有效提升视觉-语言-动作模型对三维空间的理解与精细操作能力。
从实验结果看,它似乎找到了一个巧妙的平衡点——相较于纯二维的VLA模型,它补充了至关重要的空间几何信息;而相较于那些更“重型”的显式或复杂隐式3D方案,它又较好地保持了模型的轻量化与部署的实用性。
对于深耕机器人灵巧操作、空间人工智能或VLA系统研发的团队而言,这类在模型性能、计算成本与系统实时性之间寻求精妙平衡的技术方案,其价值正日益凸显,为机器人走向更复杂、更真实的作业环境提供了新的思路。
相关攻略
机器人能够“看见”世界,但如何让它们“看准”并精准操作,一直是视觉-语言-动作模型面临的核心挑战。 当前,大多数VLA模型主要依赖二维图像信息进行决策。一旦任务涉及精确抓取定位、精细物品摆放或需要理解复杂的物体间遮挡关系——这些对三维空间感知要求极高的场景,模型的成功率往往会显著下降。 为机器人模型
当前视觉-语言-动作模型普遍缺乏空间感知能力。上海交通大学团队提出轻量级模型Evo-Depth,通过隐式深度编码将空间信息融入策略,无需额外硬件。该模型参数约0 9B,在仿真与真机测试中成功率分别达84 4%与90%左右,仅需约3 2GB显存,兼顾了性能与部署效率。
上海交大团队联合企业提出MMSkills框架,使AI能结合视觉信息执行任务。该框架提供图文并茂的“技能包”,包含操作流程、状态卡片和关键画面参考图,指导AI“看什么”及“何时做”。团队还设计了分支加载机制,让AI在运行时智能筛选视觉证据,避免信息过载。测试显示,使用该框架后,多个AI模型在办公软件和游戏等。
上海交通大学等机构提出MMSkills框架,使AI助手能结合视觉信息执行任务。该框架整合操作流程、状态卡片与多视角参考图,形成可迁移的多模态技能包,并通过分支加载机制智能调用技能、实时对齐屏幕。实验显示,该方法可显著提升AI在办公、游戏等视觉任务中的成功率和效率,减少无效操作。
在大模型技术浪潮席卷全球的今天,如果您的企业仍将人工智能局限于“智能聊天”或“文案生成”的层面,可能已经错失了技术演进的关键窗口。真正的产业变革拐点已然降临。当领先企业开始部署能够自主决策、协同工作的“数字员工”团队时,许多组织仍在探索AI与核心业务场景深度融合的有效路径。 为此,一场由上海交通大学
热门专题
热门推荐
2025年底智能驾驶国标要求,使4D毫米波雷达成为特定安全场景的关键传感器。法规明确的测试场景如远距离静止目标、隧道事故等,恰好是摄像头和激光雷达的能力盲区,凸显其不可替代价值。行业技术路线多元化,边缘与中央架构将长期并存。产业链正从供应商模式转向联合创新,中国在量产速。
梅尔维娅是《芙娅之魂》中的锻造师,负责“余烬”养成系统。玩家通过她将余烬解析并绑定至武器,以解锁战技与词条。不同余烬适配不同属性武器,如雷系余烬可召唤雷电区域并降低敌人雷抗。每件武器仅能绑定一个余烬,且需属性匹配方可生效。
智谱清影生成古风视频时,需通过精准指令确保风格纯粹。可采用四种方法:使用结构化提示词明确镜头、场景与风格;利用图生视频功能配合动态描述与风格锁定;直接调用内置古风模板简化操作;生成后手动干预关键帧,局部修正以强化古风质感。
家用投影仪凭借沉浸式体验和空间灵活性成为家庭显示的重要选择。2026年市场竞争聚焦核心技术、画质与场景适配。选购需关注亮度、画质、空间与性能四大维度。当贝旗下三款机型精准满足不同需求:S7UltraPro提供顶级专业影院画质;X7Max兼顾客厅观影与游戏娱乐;D7XPro则以高性价比和强大空间适应性,成为小户。
苹果M6MacBookPro预计2026年第四季度发布,将采用覆盖主板的均热板散热技术,取代传统单热管方案,配合优化风道与风扇,显著提升散热效率。该机型搭载2纳米制程芯片,配备OLED触控屏,旨在确保高性能持续释放,但起售价预计将明显上涨。





