近年来,视觉-语言-动作(Vision-Language-Action, VLA)模型在通用机器人操作领域逐渐成为主流技术路线。其核心思路非常直接:将摄像头捕捉的画面、人类下达的语言指令以及机器人的动作序列,全部纳入同一训练框架,使模型能够根据当前图像和任务目标,直接预测下一步的操作行为。
然而,在这种联合训练范式下,有一个问题往往被单独拎出来讨论:
VLA 模型是否真正学到了“语言如何约束动作”?
标准的 VLA 预训练,从初始阶段就将视觉定位和动作学习绑定在一起。这种方式固然能训练出视觉条件下的机器人策略,但同时也使得语言-动作学习始终被包裹在视觉主导的训练过程中。表面上看,模型是根据语言执行任务,但实际上可能更多利用了视觉和动作之间那种更直接、更密集的关联。
这正是 LA4VLA 想要深入探究的问题:
语言-动作预训练(Language-Action Pretraining)是否应该从标准 VLA 预训练中解耦出来,作为一项独立的预训练信号进行系统研究?
围绕这一核心问题,上海交通大学与阿里巴巴联合提出了 LA4VLA: Learning to Act without Seeing via Language-Action Pretraining。其重点并非让机器人最终不看图,也非否定视觉输入的重要性,而是将语言-动作监督从视觉主导的 VLA 训练中显式分离:在没有视觉输入的情况下,让模型学习语言指令如何约束连续动作轨迹,并进一步探究这种监督如何单独使用、又如何与标准 VLA 预训练协同配合。
LA4VLA: Learning to Act without Seeing via Language-Action Pretraining
论文:https://arxiv.org/abs/2606.27295
项目主页:github.com/MINT-SJTU/LA4VLA
换言之,我们希望机器人不要仅依赖视觉捷径,而是能掌握一类更基础、更可迁移的语言-动作规律:
即使暂时“看不见”,也要清楚语言中的动作词、方向词和操作意图,对应着怎样的运动模式。

1. 为什么标准 VLA 训练中的语言监督可能不足?
问题的根源在于,标准 VLA 训练中视觉、语言和动作的监督密度并不对等。
在数据层面,一条机器人示范通常包含连续的视觉观测、机器人状态和动作轨迹,但往往只配有一条高层任务指令。例如,一条完整轨迹可能对应一句 “clean the table”,而实际执行过程却包含靠近、抓取、抬起、移动、放置等多个局部动作阶段。视觉和动作信号随时间逐帧变化,语言信号则通常在整条轨迹中保持不变。这意味着,模型接触到的是大量密集的 visual-action 或 state-action 对,但语言与局部动作阶段之间的对应关系并未被显式标注。
在输入层面,也存在类似的不平衡。图像通常被编码成大量 visual tokens,而语言指令仅占输入中的一小部分。训练时,模型更容易从视觉输入中寻找直接的动作预测线索,而不是充分学习语言指令如何约束动作。
因此,一个 VLA 模型在标准输入下可能看起来是语言条件化的(language-conditioned),但其动作预测仍可能高度依赖 visual-action association。一旦视觉输入被移除、替换,或者视觉线索与语言目标发生冲突,模型就可能偏离语言指令。
这正是 LA4VLA 希望指出的问题:VLA 模型不能只在标准输入下“看起来会听指令”,而应该真正学会语言如何约束动作。如果 language-action supervision 始终被视觉主导的训练淹没,模型就容易依赖视觉捷径,难以形成稳定的语言-动作关系。因此,我们将 Language-Action Pretraining 从标准 VLA Pretraining 中解耦出来,作为独立的预训练信号进行研究:让模型显式学习不依赖具体图像和场景布局的 language-action regularities,并进一步验证这种监督如何提升下游 VLA 策略、真实机器人操作以及视觉扰动下的鲁棒性。
2. 机器人到底是在听指令,还是跟着视觉走?
为判断 VLA 策略究竟是听从语言,还是依赖视觉线索,我们设计了一个诊断实验:保持语言指令不变,仅改变视觉输入,观察模型预测的动作轨迹是否仍沿指令方向运动。我们选取方向明确的原子动作指令,例如 “move upward to approach the target” 和 “move downward to approach the target”,并构造四种视觉输入设置:原始配对视觉、移除视觉、替换为同场景不匹配视觉,以及替换为相反方向动作对应的冲突视觉。
从图中可以看到,在原始配对输入下,模型表现看似良好:相反方向指令对应的轨迹能够分开,端点也大致落在指令方向上。但一旦视觉输入被移除或替换,轨迹很快变得混乱,原本清晰的方向区分也随之消失。最关键的是视觉冲突设置:语言仍然要求模型朝一个方向运动,但视觉输入来自相反方向的动作片段。此时,预测轨迹明显偏向视觉所暗示的方向,而不是语言指令指定的方向。也就是说,模型并非只是“不确定”,而是在视觉和语言冲突时,更倾向于跟随视觉线索。
进一步的量化结果也支持了这一观察:标准配对输入下看似良好的方向跟随(direction following),在移除、替换或冲突视觉输入后显著下降,并且在视觉冲突时出现明显的反向偏移。这个诊断实验说明,标准 VLA 训练可以产生表面上的指令跟随行为,但这种行为未必稳固建立在语言-动作关系之上。模型看起来是在听指令,实际仍可能高度依赖配对视觉。
这也直接引出了 LA4VLA 的核心动机:我们需要将 language-action supervision 更显式地暴露出来,而不是始终让它与视觉观测绑定在一起。

3. LA4VLA:将 Language-Action Pretraining 从 VLA Pretraining 中解耦
基于上述诊断实验,我们提出 LA4VLA 的核心思想:不要一开始就把语言、视觉和动作全部耦合在一起训练,而是先将 language-action supervision 单独抽离,让模型先学习语言如何约束动作。
在标准 VLA 预训练中,模型同时接收视觉观测、语言指令和机器人状态,并预测动作。视觉定位(visual grounding)和动作学习从训练开始就绑定在一起。这样虽然可以学习视觉条件下的机器人策略,但语言-动作关系也容易被更密集的视觉-动作信号淹没。
LA4VLA 则将其中的 Language-Action 部分显式解耦。在 LA 预训练阶段,视觉输入被移除,模型只能根据语言指令和机器人状态预测动作轨迹。也就是说,模型暂时不能依赖图像中的目标位置、物体外观或场景布局,而必须关注语言指令本身如何对应到连续动作模式。这里的 language-action supervision 并非简单的动作类别标签。我们不是只告诉模型当前片段属于 “lift” 或 “grasp”,而是希望模型学习更完整的局部动作描述与连续动作轨迹之间的对应关系。例如:
“Lower the object downward toward the target while holding it”对应持物状态下,将物体向目标方向下放;
“Transport the object to the right while holding it”对应持物状态下,将物体向右侧水平移动;
“Open gripper to release and place the object onto the target surface”对应打开夹爪,将物体释放并放置到目标表面。
这些指令不仅说明“做什么动作”,还包含动作方向、夹爪状态、是否持物以及局部物理效果。更重要的是,它们尽量避免物体外观、背景布局和场景特定目标选择,因此不同于普通的细粒度子任务指令,例如“把红色杯子移动到书本左边”。这些知识并不依赖某一张具体图像,而是跨任务、跨场景可复用的语言-动作规律。LA4VLA 希望模型先学习这些规律,形成与视觉无关的(vision-agnostic)语言-动作规律,再在后续 VLA 训练和下游微调中结合视觉输入,完成具体场景中的操作。
因此,LA4VLA 的重点不是简单提出一个新数据集,也不是仅在标准 VLA 预训练中加入额外数据,而是提出一种新的预训练视角:Language-Action Pretraining 可以从 VLA Pretraining 中独立出来,作为一种基础的、可单独使用、也可与标准 VLA 训练互补的预训练范式。
4. LA-33K:为独立的 Language-Action Supervision 提供数据基础
为实现这种预训练范式,我们需要构造不依赖视觉输入的 Language-Action 数据。LA4VLA 并未额外采集新的机器人示范,而是提出一个 pipeline 来重新组织已有的 VLA 演示。一条完整的 VLA 轨迹通常只对应一条高层任务指令,但轨迹内部其实包含多个局部动作阶段。我们将这些长轨迹切分成短的原子动作片段(atomic action segments),并为每个片段配上对应的低层动作描述。这样,原本隐藏在完整轨迹中的 language-action supervision 就被显式暴露:每个短片段都有一个更局部的语言指令,以及与之对应的连续动作轨迹。
在构建过程中,我们结合关键帧检测、原子动作类别约束、VLM 时间分割(temporal segmentation)和人工核验,将原始 VLA 数据转化为与视觉无关的 LA 数据。最终得到的 LA episodes 覆盖 move、grasp、lift、transport、place、reorient、lower 等常见原子操作类别。
最终,我们构建了 LA-33K,包含 33,116 条经过人工核验的 Language-Action episodes。它们来自已有机器人示范,不需要额外采集机器人数据。与原始 VLA 轨迹相比,LA-33K 中的每个 episode 更短、更局部,语言描述也更直接地对齐到动作执行。需要强调的是,LA-33K 的意义不仅是“多了一个数据集”。更重要的是,它让原本被包裹在 VLA 演示中的 Language-Action supervision 变成了可以被单独训练、单独分析、并单独与 VLA 预训练组合的监督信号。

5. 实验结果:LA Pretraining 带来了什么?
表 4 总结了 LA4VLA 在 MetaWorld 和 LIBERO 上的主要结果。这里我们主要关注三点。
第一,单独 LA 预训练已经有效,且收益覆盖仿真、跨架构和真实机器人。
在 LA4VLA-1B 上:
MetaWorld:69.73% → 83.00%(+13.27 个百分点)
LIBERO:92.85% → 95.30%(+2.45 个百分点)
在另一个 VLA 架构 StarVLA 上,同样的 LA 预训练方案也带来了提升:
MetaWorld:58.39% → 69.91%(+11.52 个百分点)
LIBERO:93.70% → 94.85%(+1.15 个百分点)
在真实机器人任务上,提升更加明显:
真实世界:38.3% → 81.7%(+43.4 个百分点)
这说明,LA 预训练并非某个模型或某个仿真基准上的特定技巧。即使预训练阶段不使用视觉输入,模型学到的 language-action regularities 仍然可以迁移到不同 VLA 架构,并显著提升真实机器人中的语言条件操作能力。
第二,LA 预训练优于匹配的 VLA 预训练。
在相同原子动作片段上,保留视觉输入做 VLA 预训练,不如移除视觉输入做 LA 预训练:
MetaWorld:VLA 79.78% → LA 83.00%(+3.22 个百分点)
LIBERO:VLA 94.40% → LA 95.30%(+0.90 个百分点)
这说明,在相同原子动作片段上,LA 预训练不仅改变了预训练信号的形式,也带来了比匹配的 VLA 预训练更好的下游效果。相比保留视觉输入继续学习视觉-语言-动作关联,移除视觉输入后,模型需要更直接地学习指令与动作轨迹之间的对应关系;这种更集中的 language-action supervision,反而为后续 VLA 策略提供了更有效的预训练信号。
第三,LA 和 VLA 监督可以互补。
这里的 No 表示不做预训练、直接下游微调;VLA 表示保留视觉输入的标准 VLA 预训练;LA 表示移除视觉输入的 Language-Action 预训练;LA-VLA 表示两阶段结合 LA 与 VLA 监督;MixPT 表示在同一预训练阶段混合 LA 与 VLA 数据。
在 MetaWorld 上:
No 69.73% → LA 83.00% → LA-VLA 86.75% → MixPT 87.53%
在 LIBERO 上:
No 92.85% → LA 95.30% → MixPT 95.75% → LA-VLA 96.28%
我们也在真实机器人上验证了 LA4VLA。三个任务分别是 Press Button、Place Book 和 Place Drink,它们都需要机器人根据语言指令选择正确目标。
真实机器人平均成功率:
No 38.3% → VLA 48.3% → LA 81.7% → MixPT 83.3%
在视觉扰动下,平均成功率为:
No 27.5% → VLA 42.5% → LA 67.5% → MixPT 70.0%
因此,实验结果可以概括为一句话:
Language-Action Pretraining 是一种独立有效的预训练信号;它优于匹配的 VLA 预训练,也可以与标准 VLA 监督形成互补:LA 监督提供不依赖具体图像的 language-action regularities,VLA 监督保留视觉输入并提供视觉定位。二者结合后,在仿真、真实机器人和视觉扰动下都带来了稳定收益。

6. 为什么 LA Pretraining 有效?
除了下游成功率,我们还进一步观察了 LA 预训练对模型行为和内部表示的影响。

从左侧的方向跟随结果可以看到,经过 LA 预训练后,即使没有视觉输入,模型仍然能根据语言指令预测出清晰分开的相反方向轨迹。也就是说,动作方向不再轻易被其他输入带偏,而是更稳定地跟随语言指令。
从右侧的 t-SNE 可视化可以看到,标准 VLA 训练策略的内部表示中,不同方向指令混在一起;而 LA 预训练策略的表示会按照指令方向形成更清晰的聚类,相反方向也被分到不同区域。
这说明,LA 预训练不仅提升了最终成功率,也让模型在动作预测前形成了更清晰的指令条件化表示(instruction-conditioned representation)。换句话说,模型内部确实更好地学到了“语言如何约束动作”。
7. 这篇工作的核心贡献
总结来看,LA4VLA 的贡献不只是提出一个新数据集或一个新模型,而是把一个重要问题明确拆解出来:Language-Action Pretraining 可以从标准 VLA Pretraining 中解耦,并作为一种独立、有效、可互补的预训练范式。
具体来说,本文主要贡献包括:
第一,我们提出 LA4VLA,一种与视觉无关的(vision-agnostic)语言-动作预训练框架。它通过移除视觉输入,让模型在预训练阶段显式学习语言如何约束动作执行。
第二,我们从已有机器人示范中构建了 LA-33K 数据集。该数据集包含 33,116 条经过人工核验的 Language-Action episodes,无需额外采集机器人数据,而是通过重组已有 VLA 演示暴露出原本隐含的 language-action supervision。
第三,我们系统研究了 LA 监督的使用方式,包括仅 LA、顺序 LA-to-VLA 和混合 LA-VLA 预训练。实验表明,LA 预训练不仅能单独提升性能,还能与标准 VLA 预训练形成互补。
第四,我们在多个层面验证了方法有效性:MetaWorld、LIBERO、StarVLA 跨架构实验、真实机器人任务、视觉扰动鲁棒性实验,以及方向跟随和表示分析。
这些结果共同说明:显式的 language-action supervision 是 VLA 学习中的一个值得被单独建模和系统研究的关键方向。
8. 结语:先学会“听懂动作”,再学会“看见世界”
VLA 模型的目标不是只看图,也不是只听语言,而是将视觉、语言和动作结合起来,让机器人能够在真实世界中执行复杂任务。但如果从训练一开始就将视觉、语言和动作完全耦合,语言-动作关系可能会被更密集的视觉-动作信号淹没。模型看起来能执行语言指令,但在视觉变化或视觉冲突下,可能仍然更倾向于跟着视觉走。
LA4VLA 提供了一种新的思路:先把 Language-Action Pretraining 从 VLA Pretraining 中解耦出来,让模型在没有视觉输入的情况下学习语言如何约束动作;再将这种语言-动作规律与视觉定位结合起来,用于下游 VLA 策略学习。这不是为了让机器人不看世界,而是为了让机器人在看见世界之前,先学会理解动作。Learning to Act without Seeing,最终是为了更好地 Seeing and Acting with Language。
