视觉语言模型VLA发展前景与市场争议深度解析_AI热点日报

不能因为VLA有短板，就把世界模型推上神坛。 “So let s all take a moment of silence for our dear friend VLAs They ve served us well, rest in peace, long live World Action

不能因为VLA有短板，就把世界模型推上神坛。

“So let's all take a moment of silence for our dear friend VLAs. They've served us well, rest in peace, long live World Action Models.”

英伟达首席研究科学家、具身自主研究团队负责人范麟熙（Jim Fan）在4月红杉AI Ascent大会上的这句发言，很快被提炼成一个更具传播力的判断：VLA已死。

这句话之所以能迅速引发共鸣，恰恰因为它戳中了当前具身智能领域最普遍的焦虑。

过去两年，VLA（视觉-语言-动作）模型几乎成了机器人“大脑”的代名词。这套范式将大模型时代最成熟的能力嫁接到机器人身上：视觉负责观察，语言负责理解指令，动作负责执行。对于长期依赖示教编程和固定工艺的机器人行业而言，VLA第一次描绘出“通用机器人”的清晰轮廓。

然而，质疑声从今年开始明显增多。一个VLA模型或许能理解“把杯子拿起来”的指令，但它未必能预判杯子的表面是否湿滑；它能识别出一件衣服，却难以模拟布料被抓握后的形变过程；它能听懂“打开抽屉”，但对于手、把手、阻尼、摩擦力之间的复杂关系，其理解往往停留在表面。

问题的核心在于，机器人真正要应对的，并非静态的文本或图像，而是一个充满动态、反光、形变、遮挡与碰撞的物理世界。

这正是Jim Fan提出世界动作模型（World Action Model, WAM）的背景。在其参与署名的论文《World Action Models are Zero-shot Policies》中，摘要部分相对克制地指出：当前最先进的VLA擅长语义泛化，但在新环境中泛化到未见过的物理动作时存在困难。他们提出的DreamZero，一个基于视频扩散骨干的WAM，通过预测未来世界状态和动作来学习物理动力学。项目页数据显示，其在真实机器人新任务、新环境下的泛化能力，相比VLA基线有超过2倍的提升。

所以，Jim Fan真正告别的，并非视觉、语言、动作这三种能力本身，而是一种过于理想化的VLA范式。

VLA没有死。消亡的是一种不切实际的幻想：认为只要将视觉语言模型与机器人动作输出接口简单连接，机器人就能自然而然地掌握对物理世界的深刻理解。

1. 为什么会出现“VLA已死”的言论？

任何一项技术路线被宣判“死亡”，通常都不只是纯粹的技术问题，更是产业情绪的一种折射。

“VLA已死”论调在今天有市场，根源在于过去一年行业对它的期待被拉得过高。VLA的逻辑直观而诱人：机器人通过视觉观察，通过语言理解指令，再将理解转化为动作。这条路径天然继承了大模型时代的成功信仰。

有行业观点认为，将VLA应用于机器人，这种思路源于大语言模型时代的思维惯性。大语言模型证明了海量数据与预训练能涌现出强大的理解与推理能力；视觉语言模型进一步证明，模型不仅能处理文本，也能理解图像。那么，一个顺理成章的推论便是：既然模型能“看”懂、能“听”懂，为什么不能“动”起来？

这正是VLA迅速流行的原因。它为机器人行业提供了一套简洁、统一且易于传播的“大脑”范式：从此，机器人开始从执行机器向具备任务理解能力的智能体演进。

从产业实践看，无论是优必选的Walker S2、智平方的AlphaBot 2，还是银河通用的Galbot，都在不同程度上搭载或强调了VLA能力。智平方曾推出GOVLA 0.5，尝试在VLA框架内引入更全面的感知与控制；宇树科技也在2026年初开源了UnifoLM-VLA-0模型，旨在处理复杂操作任务。这些案例表明，VLA确实推动了机器人向开放任务理解迈出了关键一步。

但行业很快发现：理解任务指令，与理解物理世界，是两回事。

机器人不仅要知道“杯子是什么”以及“人要我拿杯子”，它还必须知晓杯子的重量、重心、材质摩擦系数，判断手指应以何种角度、多大力度接近，预判拿起时液体的晃动，以及放下时桌面的平整度。这些都属于物理常识。

2026年3月，一篇题为《World Models: Computing the Uncomputable》的长文曾假设了一个简单场景：尝试仅用文字描述“拍手”这个动作。你需要描述双手在空间中以皮秒为单位变化的相对位置、接触点、声音、手掌挤压过程、两掌间空气的流动、手臂的弯曲、袖口布料的反应、背景变化，甚至旁观者的反应。显然，任何人都无法用语言穷尽这个过程。

类似的，小鹏集团董事长何小鹏也曾指出，一段上千字的文字描述，往往也无法精准“翻译”一个十几秒的视频。这种由语言转译必然带来的精度缺失，加之VLA模型“依靠推理来归纳空间几何与物理定律”的底层逻辑，极易导致机器人抓取误差增大。任何微小的物理状态变化，如光线折射或物体形变，都可能严重影响VLA的动作输出。

这些问题的直接后果，便是业内诟病的泛化能力不足。

有技术专家指出，VLA的本质是将高维视频数据降维到语言域，实现视频与文本指令的对齐，再通过大量机器人经验数据（如轨迹数据）进行训练，让机器能基于模仿学习执行任务。其范式本质是在已有视觉语言基座模型上，进行针对“机器翻译”任务的“后训练”。

这种模式可能带来两个局限：其一，模型训练往往与特定机器人本体强绑定。更换机器人形态或构型，就需要大量新数据重新适配，部署成本高昂。其二，VLA模型更多是“知其然”，而非“知其所以然”。它通过模仿学习复现经验，但面对训练数据中从未出现过、需要复杂推理与规划的新颖场景（即长尾问题）时，往往束手无策，因为它无法预测一个动作会引发怎样的连锁物理反应。

这些问题，本质上不是语义理解的短板，而是物理建模的缺失。

2. 被误读的VLA

“VLA已死”这个说法过于锋利，也极易被误读。如果将其理解为“机器人不再需要视觉、语言和动作模型”，那显然是错误的。

尽管Jim Fan让“VLA安息”，但即便是英伟达自身，也并未真正放弃VLA。根据英伟达Cosmos的最新资料，其预测视频生成能力可用于物理AI任务的后训练、闭环策略和仿真。同时，英伟达仍在利用Cosmos等世界基础模型为GR00T等机器人模型生成训练数据。

这揭示了一条更真实的演进路线：并非抛弃VLA，而是将VLA、世界模型、合成数据、仿真、真实机器人数据及底层控制进行重新组合与定位。

传统VLA范式的问题在于，它容易被简化为“视觉/语言输入 → 动作输出”的单一路径。这种架构的优势在于语义泛化能力强，能利用互联网规模的图文知识，让机器人理解更多物体和任务关系。

但其短板同样突出：它对物理过程的建模是隐式的、不充分的。它擅长回答“这是什么”和“我要做什么”，却不擅长回答“我这样做之后，世界会发生什么”。Jim Fan所批评的，正是这种重心错配——过去的VLA将大量能力押注在语言与知识理解上，却把连续动作、接触动力学、状态变化这些机器人最核心的难题，压缩成了一个简单的“动作输出头”。

因此，更准确的判断应当是：传统的、单一的VLA范式正在被挑战和演进，但VLA所代表的任务理解能力本身并未失效。VLA仍然是机器人理解人类意图、接入开放任务的重要接口。没有VLA，机器人难以摆脱固定程序；但仅有VLA，机器人也无法真正驾驭复杂的物理世界。

这才是“VLA已死”论调最需要被校正的地方：VLA不是死了，而是不够用了。

3. 世界模型不是终局

2026年3月，有行业人士公开预测：“世界模型将成为下一个流行词。六个月后，每家公司都会自称世界模型公司来融资。”这或许为当前的世界模型热潮提供了一个鲜明的注脚，甚至有人断言世界模型将全面取代VLA。

然而，VLA和世界模型并非同一层面的概念。VLA更接近于一个行动策略模型，它回答的问题是：“基于当前观察和指令，我现在该做什么？”世界模型则更接近于一个环境预测模型，它回答的问题是：“如果我执行这个动作，下一时刻的世界会变成什么样？”

这两者看似接近，实则差异显著。一个VLA系统接收图像和指令后，直接输出机器人动作序列。它的核心是将“观察”与“指令”映射为“行动”。而世界模型关心的是状态变化，它通过预测动作执行后的世界状态，来帮助模型理解物理动力学。

以前文提到的拍手为例。对人类而言，拍手是瞬间完成的简单动作；但若要用语言精确描述其全过程，则涉及空间轨迹、速度、接触力学、声学、空气动力学乃至衣物形变等一系列连续物理变化。VLA可以将“拍手”识别为一个任务指令，但世界模型试图理解和模拟的，是双手运动过程中所遵循的物理规律及其带来的全部状态改变。

两者的区别可以浓缩为一句话：VLA让机器人理解任务，世界模型让机器人预判后果。这正是世界模型价值凸显的原因。

目前，世界模型在产业中至少有三类用途：其一，作为数据生成器，补充昂贵且稀缺的真实机器人数据；其二，作为仿真训练场，大幅降低真实环境中的试错成本；其三，作为预测模块，在机器人行动前评估不同动作可能导致的世界状态，辅助决策。

Jim Fan提出的WAM则更进一步：它并非将世界模型作为外部训练工具，而是让模型同时预测未来世界状态和生成机器人动作，将“世界预测”与“动作生成”融合进同一套架构。这也正是DreamZero论文区别于传统VLA的核心——通过视频作为世界演化的稠密表征，联合建模视频与动作。

但反过来，世界模型也不应被神化。当前行业的一大现象是，“世界模型”正在变成一个什么都能往里装的“筐”。据不完全统计，国内已有超过30家公司以不同形式宣称涉足世界模型：做视频生成的，可以说自己在生成世界；做仿真的，可以说自己在构建世界；做自动驾驶模拟的，可以说自己在预测世界。

结果是，世界模型从一个严谨的技术方向，有滑向营销概念的风险。事实上，学术界和产业界对世界模型的定义仍存争议：一方认为，真正的世界模型必须包含对潜在状态的精确预测和物理因果理解，而非仅仅模拟视觉外观；另一方则认为，通过像素级视频预测，模型同样能学习到物理规律。

有AI从业者坦言：“目前世界模型并没有一个标准的定义。市场上有多个流派，各有主张，也各有领军人物支持。”这正是讨论世界模型时最需要警惕的地方。

对机器人而言，一个世界模型的价值，不取决于其生成视频的逼真程度，而取决于它能否融入真实的任务闭环：它预测的状态是否符合物理规律？生成的数据能否切实提升机器人的真实表现？能否有效处理接触、摩擦、柔性物体和长程任务？能否与机器人控制系统稳定耦合？

如果无法回答这些问题，世界模型可能只是一种更高级的视频生成技术，而非具身智能的可靠基础设施。更值得注意的是，世界模型本身也存在“幻觉”风险。在视频生成中，物体穿模、违反重力等错误可能只是视觉瑕疵；但在机器人训练中，这些错误会转化为错误的物理经验，误导机器人学习。

一个看起来合理但物理错误的世界模拟，对机器人来说可能比没有模型更危险。因此，不能因为VLA存在短板，就将世界模型推上神坛。世界模型补足的是“物理预判”能力，但它最终必须接受真实世界的严格校验。这也解释了为何众多机器人公司仍在持续采集遥操作数据、真机实验数据和现场数据——仿真可以加速进程，但真实世界永远是最终的裁判。

4. 比流行词更重要的事情

将VLA与世界模型放在一起讨论时，最容易陷入的误区是将其视为简单的替代关系：旧路线是VLA，新路线是世界模型，前者过时，后者上位。这种叙事听起来很爽，却远离事实。

更接近现实的图景是，机器人系统正从依赖单一模型的叙事，转向构建分层协同的架构。一个真正可用的机器人，至少需要四层核心能力：

任务理解层：负责解析人类指令，识别目标物体，定义成功标准。VLA在此层仍扮演关键角色。
状态预测层：负责模拟动作执行后世界状态的变化。世界模型或WAM在此层作用显著。
运动控制层：负责将高层意图转化为连续、稳定、可执行的身体动作，包括轨迹规划、力控、避障与平衡。
数据闭环层：负责从每一次成功与失败中回收数据，诊断错误来源（是识别错误、预测错误、控制错误，还是场景超纲），并用于系统迭代。

这四层能力，缺一不可，没有任何一层能单独实现“通用机器人”。VLA解决不了所有问题，世界模型同样不能。VLA更像是任务入口，世界模型更像是物理预测器，控制系统是执行器，而真实数据则是校准器。

目前，一些团队正将世界模型作为VLA的数据生成器与仿真训练平台，用合成数据增强VLA的动作精度与泛化能力。另一些前沿尝试则致力于将世界模型能力直接注入VLA架构。例如，智平方的GOVLA 1.0（Video2Act）大模型，虽然在整体上仍属VLA架构，但其明确表示嵌入了世界模型，并引入“快慢系统”概念，由世界模型在慢系统中负责任务拆解、逻辑推理与行动预测。

智平方创始人郭彦东指出：“VLA在具身智能产品上，是一个具有‘终局感’的架构范式。”同时他也强调：“用世界模型增强VLA，与将世界模型融入VLA，是两种不同的范式。我们认为，将世界模型融入VLA，使其具备更强的泛化能力，是VLA进化的必由之路。”此外，更前沿的学术研究已在探索让VLA与世界模型共享信息表征，并共同决策动作输出，尽管这条路径尚处早期。

归根结底，“VLA已死”是一个吸引眼球的好标题，却不是一个严谨的好结论。它的价值在于给行业提了个醒：不要再简单地将大语言模型的成功经验套用到机器人身上。机器人不是ChatGPT加上机械臂，也不是视觉语言模型接上一个动作输出头。真实世界的连续性、物理性与不可逆性，决定了机器人必须学会理解“动作如何改变世界”。

VLA真正需要的不是一场葬礼，而是一次深刻的进化；世界模型真正需要的也不是被捧上神坛，而是扎实的落地应用。具身智能行业的下一个焦点，或许不该是追逐下一个流行词，而应关注谁能将任务理解、世界预测、运动控制与真实数据闭环，整合成一个真正可部署、可进化的系统。

到了那一天，无论是VLA还是世界模型，都将不再是文章标题里争论不休的热词。它们会沉淀为机器人身体里，那些默默工作、不再被单独提及的基础能力。