VLA技术瓶颈凸显WAM崛起能否引领机器人GPT时刻

时间：2026-05-20 09:34

就在四月底，红杉资本AI Ascent 2026大会的舞台上，英伟达机器人方向负责人Jim Fan抛出了一个足够引爆圈子的论断：“视觉语言模型（VLA）已死，世界动作模型（WAM）当立。”他更进一步预测，未来一两年，机器人学习的主要“食粮”，将从昂贵的人类遥控操作数据，转向互联网上唾手可得的海量第一

就在四月底，红杉资本AI Ascent 2026大会的舞台上，英伟达机器人方向负责人Jim Fan抛出了一个足够引爆圈子的论断：“视觉语言模型（VLA）已死，世界动作模型（WAM）当立。”他更进一步预测，未来一两年，机器人学习的主要“食粮”，将从昂贵的人类遥控操作数据，转向互联网上唾手可得的海量第一视角人类视频。

这番话，无异于在方兴未艾的具身智能领域投下了一颗深水冲击波。

有趣的是，在Jim Fan发言前，国内具身智能公司银河通用已联合英伟达、清华、北大发布了LDA-1B模型，旗帜鲜明地走向了“抛弃条件反射式模仿，拥抱世界模型”的路线。几乎同时，生数科技推出的通用世界行动模型Motubrain，在WorldArena与RoboTwin 2.0两项国际权威榜单上双双登顶。

一时间，业内众声喧哗。有人拍手称快，认为终于找到了通往通用机器人的正确路径；也有人冷眼旁观，觉得这不过是巨头为自身利益造势的又一轮叙事。支持者看到的是机器人从“模仿”走向“理解”的质变曙光；反对者则坚持，VLA在精细控制等领域的优势，短期内依然难以被取代。

那么，这场关乎机器人大脑未来的路线之争，核心矛盾究竟是什么？VLA真的就此沦为“昨日黄花”了吗？这场潜在的技术范式转移，又将如何重塑具身智能创业公司的生存逻辑？

01 WAM攻克了哪些难关？

要看清WAM的价值，不妨先看看VLA的“阿喀琉斯之踵”在哪里。

VLA的训练逻辑直观而有效：模仿人类遥控操作。你教它“拿起红色杯子”，它就记住了“红色杯子”这个视觉特征与“抓取”这个动作的对应关系。下次看到相似场景，便能依样画葫芦。

但现实世界从不按剧本演出。杯子的颜色、摆放的角度、环境的光线，任何细微变化都可能让这套基于固定映射的“条件反射”系统失灵。VLA学到的，是一种高度脆弱、依赖标准环境的技能，其泛化能力在复杂多变的真实场景中面临严峻挑战。

WAM则提供了一套截然不同的解题思路。它的核心不再是简单的“看到-执行”，而是“预测-理解”。WAM试图让机器人在动手之前，先在内部的“物理模拟器”中预演一番：这个动作下去，物体会如何运动？液体会如何流淌？整个场景将发生怎样的连锁变化？

这种内在的“物理想象力”，带来的第一个突破便是泛化能力的跃升。一个训练充分的WAM机器人，即便走进一间从未见过的厨房，也能基于对重力、摩擦力、惯性等物理规律的理解，做出合乎情理的判断。有研究（如HarmoWAM）表明，在背景、位置、物体语义全变的“零样本”场景中，WAM的表现比之前的顶尖VLA模型提升了33%。

除了泛化能力，WAM完成的另一项更具产业碘伏性的突破，在于对数据源的“结构性松绑”。

VLA长期被困在“遥操作数据”这座昂贵而狭小的孤岛上，每一帧训练数据都需真人遥控、真机采集，成本高昂。而WAM则可以像大语言模型吞噬互联网文本一样，去学习海量、免费、每日自然产生的人类第一视角视频（如各类生活分享、操作教程视频）。这意味着，机器人首次获得了从互联网视频中“自学”物理世界规律的潜力。智在无界的Being-H0.7模型，直接用20万小时人类视频进行预训练并取得优异效果，证明了这条路径的可行性。银河通用的LDA模型更进一步，将仿真数据、人类视频与机器人操作数据混合进行联合训练，打破了行业对“完美标注数据”的迷信。

不仅如此，WAM在另一个长期困扰机器人领域的难题——长程任务规划——上也取得了实质性进展。传统VLA通常只能处理两三个动作的短序列任务，步骤一多就容易“迷失”。而WAM的表现已开始脱离简单的演示阶段。例如，生数科技的Motubrain已能规划并执行包含十个原子动作的复杂任务链，这让机器人在真实场景中具备了更连续、更鲁棒的工作能力。

值得注意的是，国内团队在这条新赛道上的进展速度令人瞩目。银河通用的LDA-1B背靠清华、北大与英伟达的联合研发；生数科技的Motubrain登顶国际双榜；智在无界的Being-H0.7在综合排名中位列全球第一。

海外前沿实验室同样在快速推进。英伟达提出的DreamZero在真机实验中，对新任务和新环境的泛化能力较顶尖VLA模型提升超过2倍。

可以说，在这场通向物理理解的新竞赛中，国内与海外几乎站在同一起跑线上。然而，在一片喧嚣与期待之下，一个更根本的问题必须被回答：VLA真的到了该谢幕的时刻吗？

02 VLA被杀死了吗？

WAM的方向无疑是激动人心的，但“VLA已死”这个斩钉截铁的结论，需要更冷静的审视。

一方面，WAM展现的技术潜力确实诱人，它让机器人从机械模仿迈向物理理解，从依赖昂贵专用数据转向利用开放网络资源。智在无界用20万小时视频预训练的Being-H0.7能在6项国际评测中综合夺魁，这在VLA主导的时代难以想象。

另一方面，任何技术叙事的背后，都难免掺杂商业逻辑。理解这一点，关键看是谁在喊“VLA已死”。

英伟达，全球AI算力的头号供应商。无论VLA还是WAM，最终都跑在它的GPU上。但两者对算力的“胃口”天差地别。WAM需要对海量视频进行预训练，推理时还需进行复杂的物理模拟或扩散生成，其对GPU的消耗远非VLA可比。力推WAM，对英伟达而言，意味着更强劲的芯片需求与更高的客单价。一家芯片巨头，自然乐见市场转向更“吃”算力的技术路线。

因此，作为行业观察者，有必要区分哪些是客观的技术进步，哪些是被商业立场放大或引导的预期。撇开商业视角，WAM本身也面临诸多硬核挑战。

首先，在需要毫米级定位或精密力控的任务（如精密装配、手术辅助）中，WAM目前的表现仍弱于专精于动作优化的VLA模型。因为视频生成目标更关注像素一致性，而非关节级的精细控制。同时，其推理延迟虽经优化，仍普遍高于VLA。

其次，数据与算力门槛依然高企。联合训练视频与动作需要海量真机交互数据，以及高昂的扩散模型训练成本，非一般团队所能承受。

再者，当任务指令涉及抽象语言或复杂社交语境时，纯物理世界建模的WAM容易“看得懂画面，听不懂人话”。这说明，WAM在“理解物理”上迈出了一大步，但距离“融入现实”还有相当距离。而后者，恰恰是VLA目前更具优势的领域。

事实上，VLA在现阶段至少有三个维度的价值，是WAM难以简单替代的。

一是部署效率。在要求高精度、实时力反馈的场景中，VLA轻量化的“观察-动作”端到端架构，计算开销小、响应速度快，更容易在边缘设备上实现低成本实时部署。

二是工程成熟度。经过一年多快速发展，VLA的模型架构、训练流程、开源生态已相对成熟。创业团队能基于现有工具链，较快搭建出可用的原型系统。反观WAM，架构更复杂、训练不稳定、推理开销大，工程化落地的门槛明显更高。

三是与现有工业体系的兼容性。大量工业自动化场景不需要复杂的物理推理，只需稳定、精确、可重复地执行既定动作。VLA的模仿学习范式与这种需求高度契合，企业可通过少量示教快速让机器人掌握特定技能。

因此，更可能发生的演进路径，并非“WAM淘汰VLA”，而是两者的优势融合与场景分化。“VLA已死”更像一个极具传播力的行业警钟，而非最终的技术判决书。它提醒整个生态，不能安于VLA的舒适区，必须思考如何将物理理解能力融入现有框架。但就此断言VLA退出历史舞台，显然为时过早。

那么，当技术路线的争论甚嚣尘上，那些已经押注VLA的创业公司，此刻正面临着怎样的现实压力？

03 半年一变天，创业公司正在承压

从VLA被热捧到被质疑“已死”，中间不过半年多光景。机器人领域的技术迭代速度，已快到让产业参与者感到窒息。对财大气粗的科技巨头，这可能只是研究重心的微调；但对资源有限的初创企业而言，每一次“风向”变化，都可能是一次需要重新押上命运的赌局。

首当其冲的，是研发路线上巨大的沉没成本风险。

过去一年，大量初创公司围绕VLA构建了完整技术栈，投入重金购置遥操作设备，组建专业的数据采集团队。创始人们深信，积累高质量、高成本的遥操作数据，就是构筑未来的护城河。例如，自变量机器人在成立后累计融资超40亿元，其中相当部分用于数据工厂与真机数据团队建设；智平方一年内完成多轮融资，自建产线投产并实现月度百台级交付。这些数字背后，是一整套基于VLA范式建立的资产、团队与认知体系。

然而，当WAM浪潮袭来，这些巨额投入的价值面临重估。对于已完成大规模融资、团队达数百人的公司，技术路线的转向意味着惊人的沉没成本与组织阵痛。

技术风向的切换，迅速在人才市场引发连锁反应。

VLA时代，行业急需模仿学习、遥操作数据方面的专家；WAM时代，需求瞬间转向视频理解、物理仿真、世界模型构建。技能需求的快速变迁，迫使创业公司不得不重构刚刚搭建好的团队架构。

与此同时，人才市场的供需与价格体系随之剧烈波动。WAM方向成为热点，相关人才薪资水涨船高；而公司内部原有的高薪VLA团队，则面临技能过时或被动转型的压力。有报告显示，2026年春招季，具身智能岗位量暴增，平均月薪持续攀升，核心人才跳槽涨幅可达150%。创业公司不得不在新方向上高价抢人，同时消化旧方向上的团队惯性，两头承压的处境颇为艰难。