开源高效VLA模型大幅降低推理成本普通硬件即可流畅运行

首页

热心网友

转载

2026-05-20

在具身智能领域，一个关键的演进方向正日益清晰——Vision-Language-Action模型，即VLA模型。它被视为实现开放世界机器人智能操作的核心架构。然而，一个现实的挑战始终存在：动辄数百亿参数的大型骨干模型，配合需要多步迭代生成的动作预测模块，带来了高昂的计算成本和难以接受的实时延迟，这成为其在普通计算硬件上部署和落地的根本性障碍。

强大的性能是否必然等同于巨大的开销？近期，来自中山大学与MBZUAI的研究团队提出了一份颠覆性的答卷。他们推出的A₁模型，堪称一份高效的“性能瘦身”指南。通过创新的自适应推理等技术，该模型在保持卓越任务性能的同时，大幅降低了推理所需的计算资源，让机器人的实时、低成本控制变得切实可行。

简而言之，A₁是一个完全开源、透明且高效的自适应截断式VLA模型。它不依赖任何私有数据或未公开组件，其核心设计哲学是“将计算资源用在最关键的地方”。模型基于预训练的视觉语言模型获取丰富的先验知识，并通过一套“预算感知的自适应推理”机制，实时监控网络中间层输出的动作序列是否已收敛稳定。一旦判定动作已稳定，便提前终止后续层的计算，有效避免了冗余运算。同时，其创新的“层间截断流匹配”技术，能够以极少的去噪迭代步数在层级间高效传递信息，从而实现了对骨干网络和动作预测头的联合加速。

实际效果如何？实验数据极具说服力：在仿真环境与真实机器人平台上，A₁均达到了业界领先的性能水平，最高可降低72%的推理延迟，并减少高达76.6%的计算量。在权威的RoboChallenge基准测试中，其平均任务成功率达到29.00%，表现优于π₀、X-VLA等主流开源基线模型，真正实现了高效率与高泛化能力的完美平衡。

VLA模型的核心瓶颈：庞大骨干与迭代动作头的双重挑战

要深入理解A₁的价值，首先需要厘清当前VLA模型面临的主要痛点。这类模型的架构通常分为两部分：首先利用视觉-语言大模型理解环境场景与人类指令，随后通过一个专门的动作头输出具体的机器人控制指令。问题恰恰潜藏在这个流程之中。

首先，作为主干的视觉语言模型参数量巨大，逐层进行前向传播计算耗时严重。然而，这并非唯一的瓶颈。更为关键的是后续的动作生成模块——无论是基于扩散模型还是流匹配模型，通常都需要10到20步的迭代去噪过程才能生成一个稳定、可靠的动作序列。这就导致了一个困境：即使研究人员优化了骨干网络的推理速度，这个迭代式的动作头又会成为新的、更难以消除的性能瓶颈。其结果就是机器人响应迟缓，部署成本高企，严重阻碍了在实际场景中的应用。

A₁的解决方案直指核心：计算力，应当只用于那些对最终输出动作有实质性影响的运算上。研究团队基于几个关键洞察——例如流匹配生成的动作在极少数步内即可稳定、连续动作帧之间存在高度的时间冗余、网络中间层的特征已包含足够信息用于动作预测——设计了一套对骨干网络与动作头进行协同加速的完整方案。

△A₁模型整体架构示意图

核心技术突破：自适应截断与层间流匹配的双重加速策略

A₁以Molmo-7B作为其视觉语言骨干网络，并可灵活适配流匹配或MLP等多种类型的动作头。但其脱颖而出的关键在于内置的自适应推理引擎。该引擎主要从两个维度实现加速。

1. 基于动作一致性的提前退出机制：计算至“足够好”即停止

在模型训练阶段，A₁让骨干网络的每一层都连接至一个共享的动作头进行协同学习。在推理阶段，模型会逐层生成动作预测，并实时计算相邻层输出动作之间的相似度。一旦系统检测到连续层产生的动作已足够一致、趋于稳定，便会立即终止后续所有网络层的前向传播。这意味着，对于相对简单的任务，模型可能在很浅的层数就已获得“自信”的答案，从而大幅削减了后续不必要的计算开销。

△A₁模型的训练流程与自适应推理机制

2. 层间截断流匹配技术：破解动作头“加速反变慢”的悖论

此处存在一个精妙的设计。传统的提前退出策略，若每次退出后动作头都从随机噪声重新开始迭代，反而可能导致“加速效果越明显，整体耗时却未必减少”的悖论。A₁提出的“层间截断流匹配”技术，不仅大幅压缩了所需的去噪迭代步数，更重要的是，它将上一层输出的动作作为下一层去噪过程的“热启动”初始值，而非从零开始。这相当于将动作生成模块的迭代成本压缩到了极致。

3. 面向多机器人的泛化预训练：基于开源数据构建强大模型

为了确保模型具备强大的跨平台泛化能力，A₁采用了两阶段训练策略。第一阶段，利用大规模公开的机器人操作数据集进行预训练，为模型打下坚实的通用能力基础。第二阶段，再使用自主采集的真实机器人轨迹数据进行领域适应性微调，并辅以数据增强与均衡采样技术。这一过程证明了，不依赖于私有或封闭数据，同样能够训练出性能强劲、适应性广的机器人VLA模型。

实际性能验证：仿真环境稳定，真实机器人表现强劲

A₁的优势并非停留在理论层面，其在仿真环境与真实机器人测试中均取得了卓越的成绩。

在仿真测试中，它在多项经典基准测试上保持了极高的任务成功率，同时推理速度获得了数量级提升，真正做到了“精度更高，速度更快”。

真正的考验在于真实机器人部署。A₁在Franka、AgiBot、OpenArm、Dobot-Arm等多种不同构型的机器人硬件平台上，成功完成了抓取、摆放、整理、擦拭等一系列复杂操作任务，其整体性能显著优于当前主流的开源模型。特别是在需要长时间连续执行的任务，以及小样本学习场景下，A₁生成的动作序列更加平滑稳定，误操作率显著降低。

△长时序连续任务执行效果对比

在权威的RoboChallenge真实机器人测评基准中，作为一套完全开源、全栈可复现的解决方案，A₁成功超越了多款知名基线模型，在开抽屉、精准放置等对精度要求极高的任务上表现尤为出色。

△自适应推理过程可视化分析

△A₁成功部署于自研OpenArm双臂移动操作平台，执行高精度操作任务

△在AgiBot机器人上的早停机制可视化演示

定义未来方向：高性能不等于高成本

A₁最具启发性的贡献在于，它重新验证了一个重要理念：机器人VLA模型的卓越性能，并非必须通过堆叠参数和消耗巨额算力来换取。

通过其自适应截断机制，A₁实现了三大关键突破：对骨干网络和动作头进行端到端的联合优化与加速；根据任务实时复杂度动态分配计算资源；以及坚持全栈开源透明，保障了研究的可复现性与可扩展性。这标志着，机器人控制大模型终于有望摆脱对昂贵计算集群的依赖，部署到更普及的硬件设备上，从而显著降低实时控制与多机型适配的技术门槛与经济成本。