当前,视觉语言动作模型(VLA)作为具身智能的核心技术路径,正面临严重的“碎片化”挑战。不同团队采用的动作解码范式各异,数据与训练管线深度绑定,评测标准互不统一,导致研究成果难以横向对比,复现成本高昂,这严重阻碍了领域基础模型的迭代与进步。
针对这一行业痛点,开源项目StarVLA并未选择盲目堆砌算力或追逐榜单分数,而是从系统设计层面进行根本性创新。它提出了一套名为Backbone-Action Head的“乐高式”统一架构,旨在通过高度的模块化与抽象,破解当前的研究僵局。

破解VLA研究的“巴别塔”三重困境
尽管VLA模型被公认为实现通用具身智能的主流方案,但其学术研究却深陷三重障碍,犹如“巴别塔”的诅咒,阻碍了有效的交流与进展:
架构割裂:自回归离散Token生成、并行连续回归、基于流匹配的去噪、双系统推理……这些不同的动作解码范式,背后是截然不同的代码实现逻辑与接口假设。
管线强耦合:许多现有开源框架更像是为单一方法定制的“黑箱”,其数据预处理、训练循环和评测协议紧密耦合,导致功能模块无法在不同项目间轻松复用。
评测标准不一:各研究论文通常在互不重叠的基准子集上报告性能,且预处理与推理细节不透明,使得公平、客观的模型对比几乎无法实现。
StarVLA项目的核心使命,正是要打破这种碎片化现状,为社区提供一套统一的解决方案。

架构创新:策略中心的“乐高”式模块化设计
StarVLA的核心洞见在于,它认为基于视觉语言模型(VLM)和基于世界模型(World Model)的VLA并非对立范式,而是同一策略框架下,利用不同辅助学习信号(L_aux)的变体。
基于这一理念,团队构建了一个高度模块化、接口统一的开源基础框架。研究者可以像拼接乐高积木一样,自由组合不同的主干网络与动作头模块,在完全可控的实验条件下,精准验证单一设计变量的影响。

在系统层面,StarVLA引入了统一的策略中心公式,将多模态历史观测、语言指令与未来动作序列映射到同一计算图中。其训练目标被清晰地分解为三类:
- 直接VLA:纯粹的动作序列监督学习。
- 基于VLM的VLA:在动作学习外,引入语言对齐辅助目标,例如子任务规划或空间 grounding。
- 基于世界模型的VLA:引入对未来观测的预测作为辅助学习目标或隐式先验。
在这一抽象框架下,StarVLA实现了双向可插拔的模块化:

- 可插拔主干网络:支持Qwen3-VL、InternVL等经过指令微调的视觉语言模型,以及Cosmos-Predict2等世界模型。只需轻量的适配层,即可接入统一的特征表示契约。
- 可插拔动作头:内置了四种代表性的动作解码器,它们共享相同的
forward()与predict_action()接口。包括自回归离散Token生成器、轻量级MLP并行连续回归器、层间交叉DiT流匹配去噪器,以及System 2+System 1双系统推理架构。
所有架构变体共享同一套数据接口、训练循环与评测管线。仅需替换主干或动作头即可完成范式切换,彻底消除了跨方法对比时因基础设施不同而产生的“隐性变量干扰”。
训练范式:从单一微调迈向多模态协同优化
StarVLA将训练策略抽象为与架构解耦的可复用配置,主要支持三大核心训练范式。

1. 行为克隆监督微调
提供完整的分布式训练脚本,支持全参数微调与特定子模块冻结。优化器采用多参数组独立学习率、bfloat16混合精度训练与余弦衰减调度策略,确保异构组件能够稳定、高效地协同训练。
2. 多目标协同训练
纯粹的VLA动作微调极易导致预训练的VLM主干发生“灾难性遗忘”,丧失原有的多模态理解能力。StarVLA内置了双数据流协同机制:交替执行VLA动作预测前向传播与VLM语言建模前向传播,通过动态平衡损失权重,同步优化动作学习与多模态表征保留。实验证明,该协同训练策略能显著提升模型的空间 grounding 能力,并在多个机器人仿真平台上带来4%至10%的任务成功率提升。

3. 跨形态混合训练
通过声明式的YAML配置文件,用户可自由声明任意机器人数据集的组合及其采样权重。框架会自动处理不同数据集间的动作空间对齐与机器人形态标签追踪。这一设计使得复杂的“跨形态预训练”从需要定制开发脚本,转变为简单的标准化配置任务。
评测与部署:Server-Client架构无缝衔接仿真与现实
为避免评测基准的依赖项污染模型运行环境,StarVLA采用了轻量级的WebSocket Server-Client评测抽象:模型侧仅需启动策略服务,暴露标准的predict_action()接口;评测侧则通过独立的Client客户端,封装观测字典并与服务端进行通信。
这意味着,将模型部署到真实机器人上无需修改任何核心代码:只需将仿真环境中的评测Client替换为机器人控制器Client,并提供相同格式的相机观测与语言指令,即可实现从仿真到物理世界的无缝迁移(Sim2Real)。
目前,项目已集成LIBERO、SimplerEnv、RoboTwin 2.0等七大主流机器人基准测试,并附带完整的基准适配器,自动处理动作反归一化、动作块拆分等必要的后处理逻辑。
性能与效率:极简配置下的卓越泛化能力证明
StarVLA刻意避免了复杂的数据增强与在线优化技巧,仅使用公开的视觉语言预训练权重,在标准演示数据集上进行微调,即可达到极具竞争力的性能水平。


更重要的是,其统一架构展现了出色的泛化鲁棒性。例如,将Qwen3-VL-4B主干网络替换为参数量更小的Cosmos-Predict2-2B,在LIBERO基准测试上的平均成功率仍能稳定保持在95.2%以上。

在跨基准的通用智能体设置中,单个模型联合训练多个数据集后,在RoboCasa基准上的平均任务成功率从专精单一任务的48.8%提升至57.3%,这有力证明了在统一管线下进行All-in-One联合训练的可行性。

在计算效率方面,从单计算节点扩展到多节点的测试显示,其并行训练效率能维持在79%到80%的高水平,为开展大规模分布式训练提供了清晰的扩展性指南。
总结与未来展望
StarVLA的核心价值,在于为具身智能研究社区提供了一套可复现、可对比、可自由组合的基础设施标准。它通过工程上的克制——统一的输入输出契约、声明式YAML配置、服务端与客户端的解耦设计——与理论上的深刻洞察,旨在终结VLA领域各自为战的“巴别塔”时代。
对于研究者而言,它是一个即插即用、快速验证新想法的创新沙盒;对于工程师而言,它是实现从仿真模拟到真实机器人零代码修改部署的可靠底座;而对于整个具身智能社区而言,它更像是一件能够降低复现门槛、推动标准化评测进程的宝贵公共产品。
