首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
三星DAM-VLA机器人动态操控技术实现手臂夹爪解耦新突破

三星DAM-VLA机器人动态操控技术实现手臂夹爪解耦新突破

热心网友
11
转载
2026-05-22

一、背景

当前,视觉-语言-动作模型已成为推动机器人智能发展的核心架构。然而,主流方案如OpenVLA、π0、CogACT普遍存在一个设计局限:它们依赖单一动作模型处理所有任务。这种“通用型”设计在面对真实世界的复杂机器人操控时,其内在矛盾日益凸显。

问题的核心在于机器人任务本身的二元特性。机器人动作可明确分为两类:一类是手臂的大范围移动,例如将机械臂从一个位置移动到另一个位置,这要求模型具备全局场景理解能力,且运动路径规划相对灵活;另一类是夹爪的精细操作,如精准抓取或放置小型物体,这需要模型将视觉注意力高度集中于局部细节,并对抓取姿态进行毫米级控制,容错空间极小。这两类动作在路径约束、视觉关注焦点及所需数据分布上存在本质差异。强行让一个模型同时承担“宏观导航”与“微观操控”双重职责,往往会导致性能相互制约。

更关键的是,传统方法缺乏智能的任务阶段感知与调度能力。模型无法自主判断当前步骤需要执行哪类动作,从而动态调用最合适的计算资源。在步骤繁多的长时程复杂任务中,错误容易累积,导致最终失败。三星研究院最新提出的DAM-VLA框架,正是针对这一核心挑战。它首次在模型层面将手臂运动与夹爪操作解耦,并引入动态路由与加权机制,为提升机器人操控的精准度与鲁棒性提供了创新解决方案。

DAM-VLA——手臂与夹爪解耦,三星研究院的动态动作VLA刷新机器人操控SOTA

二、核心方法

DAM-VLA的架构体现了“专精化”的设计哲学,通过三个协同工作的核心组件,实现了从环境感知到动作执行的高效闭环。

模块一:双通道视觉编码与VLM骨架

模型并行采用DINOv2和SigLIP两种视觉编码器提取图像特征。其创新之处在于对特征流进行了智能分流:常规视觉token用于多模态融合;而DINOv2产生的class token(蕴含全局场景语义)被专门路由至手臂运动模型;其register token(蕴含局部几何细节)则专门服务于夹爪操作模型。语言模型(LLaMA-2)的浅层输出用于动作类型路由决策,深层输出用于具体动作参数生成。这一设计确保了“全局场景理解”与“局部细节感知”信息能够精准送达对应的专家模型。

模块二:VLM驱动的动作路由机制

这是实现动态任务调度的智能中枢。系统利用视觉语言模型的推理能力,实时判断当前任务阶段是需要执行手臂移动还是夹爪操作。通过一个可学习的路由权重参数w,模型动态选择激活对应的专家模型:当w<0.5时,调用手臂运动模型;当w≥0.5时,则调用夹爪操作模型。两个专家模型均为专用的DiT扩散模型,并行训练:手臂模型接收全局特征,预测大范围位移;夹爪模型接收局部特征,精细预测末端抓取姿态。从而实现了“宏观移动与微观操作”的智能按需切换。

模块三:双尺度动作加权机制

为了进一步提升长序列任务的动作连贯性与可靠性,DAM-VLA引入了双层次加权策略。在轨迹级别,采用非对称高斯分布进行加权,任务起始阶段方差较宽(σ=6),临近状态转换点时方差收窄(σ=2)。这模拟了人类在执行精细操作前需要更充分准备的行为模式。在动作块级别,则采用指数衰减加权(γ=0.8),确保近期预测的动作对后续决策具有更高影响力。两层机制协同作用,显著增强了复杂多步任务中动作序列的时序一致性与稳定性。

三、亮点总结

创新点一:真实机器人操控平均成功率86.8%

在Franka机器人执行的抓取-放置任务(共计80次试验)中,DAM-VLA取得了平均86.8%的成功率。这一成绩显著超越了CogACT的62.9%,提升幅度高达23.9个百分点。具体而言,在分布内任务上成功率为91.4%(CogACT为65.7%),在分布外泛化任务上成功率为82.2%(CogACT为60.0%)。无论是在仿真测试还是真实机器人实验中,其性能均全面刷新了现有技术的最高水平。

创新点二:长时程任务最终成功率56%,超越所有基线

在更为复杂的FurnitureBench One-Leg家具组装任务(需要连续5步操控)中,DAM-VLA的最终成功率达到56%。作为对比,CogACT为42%,而OpenVLA仅为29%。深入的消融实验表明,双尺度加权机制是达成这一优异性能的关键。一旦移除此机制,模型性能会出现显著下降,这有力证明了其对维持长时程动作连贯性的核心价值。

创新点三:DINOv2 class/register token分工的关键发现

本研究另一项重要贡献在于,首次通过系统性实验验证了DINOv2视觉编码器中class token与register token天然具备的“全局-局部”信息分工特性。class token更擅长捕捉场景级的整体语义,而register token则包含了物体表面精细的几何与纹理信息。将这两类token分别路由给粗粒度动作和精细操作模型,无需额外的特征对齐训练,即可实现视觉感知与任务阶段的高度自适应匹配。这一发现为未来VLA模型的视觉编码器设计与特征利用提供了宝贵的实证依据和新的优化方向。

来源:https://www.leiphone.com/category/robot/t77AdgSehK6gyGfv.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

三星DAM-VLA机器人动态操控技术实现手臂夹爪解耦新突破
业界动态
三星DAM-VLA机器人动态操控技术实现手臂夹爪解耦新突破

一、背景 当前,视觉-语言-动作模型已成为推动机器人智能发展的核心架构。然而,主流方案如OpenVLA、π0、CogACT普遍存在一个设计局限:它们依赖单一动作模型处理所有任务。这种“通用型”设计在面对真实世界的复杂机器人操控时,其内在矛盾日益凸显。 问题的核心在于机器人任务本身的二元特性。机器人动

热心网友
05.22
百度ERNIE‑Image开源8B参数模型,消费级显卡实现顶级文生图效果
AI资讯
百度ERNIE‑Image开源8B参数模型,消费级显卡实现顶级文生图效果

近期,AI文生图领域迎来重要突破:百度文心大模型正式发布并开源了ERNIE‑Image文生图模型。该模型以约80亿参数的轻量级规模,在多项国际权威评测中达到SOTA(当前最优水平),其参数量显著低于行业主流模型。 更值得关注的是,ERNIE‑Image仅需24GB显存的消费级显卡即可流畅运行。这标志

热心网友
05.18
GLM-5.1 获全球开源模型最佳性能 全新基准权威发布
科技数码
GLM-5.1 获全球开源模型最佳性能 全新基准权威发布

5月12日,全球权威AI评测机构Artificial Analysis正式推出了一项创新的基准测试——Coding Agent Index(编程智能体指数)。这项测试的独特之处在于,它不再孤立地评估大模型的“理论”编码能力,而是聚焦于更贴近实际开发的场景:系统性地衡量“Agent harnesses

热心网友
05.13
谷歌AI攻克数十年数学难题刷新SOTA纪录牛津教授协同突破
业界动态
谷歌AI攻克数十年数学难题刷新SOTA纪录牛津教授协同突破

数学界悬置数十年的群论经典难题——Kourovka Notebook 第21 10号问题,近期取得了实质性进展。推动这一突破的,是一种崭新的人机协作研究范式:牛津大学数学家 Marc Lackenby 在 Google DeepMind 最新发布的多智能体研究系统“AI Co-Mathematici

热心网友
05.12
谷歌AI助力数学研究突破群论难题牛津团队取得新进展
AI资讯
谷歌AI助力数学研究突破群论难题牛津团队取得新进展

谷歌DeepMind推出“AI联合数学家”系统,协助牛津大学教授解决群论难题。该系统作为异步协同工作空间,通过多智能体并行处理任务并允许人类介入引导,刷新了数学AI基准测试纪录,并在真实研究中推动关键进展。这标志着AI正从解题工具转变为深度研究伙伴,但仍面临“讨好审稿人偏差”等挑战。

热心网友
05.10

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

以太坊基金会隐私研究集群成立 推动私密支付与匿名投票技术革新
web3.0
以太坊基金会隐私研究集群成立 推动私密支付与匿名投票技术革新

以太坊基金会成立隐私研究集群,旨在推动私密支付与匿名投票等关键隐私技术的发展。该集群将整合研究资源,探索相关技术的最新趋势与潜在应用,为构建更安全、保护用户数据的去中心化生态系统提供支持。

热心网友
05.23
MetaMask推出永续合约交易功能并计划十月底启动奖励计划
web3.0
MetaMask推出永续合约交易功能并计划十月底启动奖励计划

MetaMask宣布将推出永续合约交易功能,允许用户进行双向开仓交易,覆盖多种加密资产。该功能伴随高波动性与爆仓风险,需谨慎操作。平台计划于十月底启动奖励计划,以吸引用户参与。投资者可通过主流交易平台注册并利用APP查看交易数据,同时需注重仓位管理、止盈止损及资金安全。

热心网友
05.23
贾跃亭再掀Meme币热潮 币安汽车市值飙升背后解析
web3.0
贾跃亭再掀Meme币热潮 币安汽车市值飙升背后解析

Meme币“币安汽车”市值近期大幅上涨,其背后与币圈知名人物贾跃亭的操盘策略密切相关。该现象揭示了当前加密货币市场中Meme币作为一种投机资产的波动性与关注度,反映了市场对特定人物影响力的高度敏感。

热心网友
05.23
欧易OKX官网最新版APP下载 v6.146.0 官方正版交易平台入口
web3.0
欧易OKX官网最新版APP下载 v6.146.0 官方正版交易平台入口

访问欧易官网需核对域名,防范钓鱼风险。建议通过官方渠道下载最新版APP。注册后需完成实名认证并绑定安全设备以提升安全。首次购币可通过C2C交易区进行,平台提供担保。此外,平台还提供合约交易、理财及行情分析等功能。新手应从官方渠道入手,逐步完成安全设置与交易。

热心网友
05.23
币安Binance官网注册教程 官方APP下载与账户安全指南
web3.0
币安Binance官网注册教程 官方APP下载与账户安全指南

币安交易所提供官网及移动应用两种访问方式,用户可通过官方渠道下载应用并完成注册,以使用其交易服务。平台支持多种数字资产交易,操作便捷,适合不同需求的投资者。

热心网友
05.23