首页 游戏 软件 资讯 排行榜 专题
首页
AI
视觉语言模型VLA发展前景与市场争议深度解析

视觉语言模型VLA发展前景与市场争议深度解析

热心网友
99
转载
2026-05-12


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈


不能因为VLA有短板,就把世界模型推上神坛。

“So let's all take a moment of silence for our dear friend VLAs. They've served us well, rest in peace, long live World Action Models.”

英伟达首席研究科学家、具身自主研究团队负责人范麟熙(Jim Fan)在4月红杉AI Ascent大会上的这句发言,很快被提炼成一个更具传播力的判断:VLA已死。

这句话之所以能迅速引发共鸣,恰恰因为它戳中了当前具身智能领域最普遍的焦虑。


过去两年,VLA(视觉-语言-动作)模型几乎成了机器人“大脑”的代名词。这套范式将大模型时代最成熟的能力嫁接到机器人身上:视觉负责观察,语言负责理解指令,动作负责执行。对于长期依赖示教编程和固定工艺的机器人行业而言,VLA第一次描绘出“通用机器人”的清晰轮廓。

然而,质疑声从今年开始明显增多。一个VLA模型或许能理解“把杯子拿起来”的指令,但它未必能预判杯子的表面是否湿滑;它能识别出一件衣服,却难以模拟布料被抓握后的形变过程;它能听懂“打开抽屉”,但对于手、把手、阻尼、摩擦力之间的复杂关系,其理解往往停留在表面。

问题的核心在于,机器人真正要应对的,并非静态的文本或图像,而是一个充满动态、反光、形变、遮挡与碰撞的物理世界。

这正是Jim Fan提出世界动作模型(World Action Model, WAM)的背景。在其参与署名的论文《World Action Models are Zero-shot Policies》中,摘要部分相对克制地指出:当前最先进的VLA擅长语义泛化,但在新环境中泛化到未见过的物理动作时存在困难。他们提出的DreamZero,一个基于视频扩散骨干的WAM,通过预测未来世界状态和动作来学习物理动力学。项目页数据显示,其在真实机器人新任务、新环境下的泛化能力,相比VLA基线有超过2倍的提升。

所以,Jim Fan真正告别的,并非视觉、语言、动作这三种能力本身,而是一种过于理想化的VLA范式。

VLA没有死。消亡的是一种不切实际的幻想:认为只要将视觉语言模型与机器人动作输出接口简单连接,机器人就能自然而然地掌握对物理世界的深刻理解。

1. 为什么会出现“VLA已死”的言论?

任何一项技术路线被宣判“死亡”,通常都不只是纯粹的技术问题,更是产业情绪的一种折射。

“VLA已死”论调在今天有市场,根源在于过去一年行业对它的期待被拉得过高。VLA的逻辑直观而诱人:机器人通过视觉观察,通过语言理解指令,再将理解转化为动作。这条路径天然继承了大模型时代的成功信仰。

有行业观点认为,将VLA应用于机器人,这种思路源于大语言模型时代的思维惯性。大语言模型证明了海量数据与预训练能涌现出强大的理解与推理能力;视觉语言模型进一步证明,模型不仅能处理文本,也能理解图像。那么,一个顺理成章的推论便是:既然模型能“看”懂、能“听”懂,为什么不能“动”起来?

这正是VLA迅速流行的原因。它为机器人行业提供了一套简洁、统一且易于传播的“大脑”范式:从此,机器人开始从执行机器向具备任务理解能力的智能体演进。

从产业实践看,无论是优必选的Walker S2、智平方的AlphaBot 2,还是银河通用的Galbot,都在不同程度上搭载或强调了VLA能力。智平方曾推出GOVLA 0.5,尝试在VLA框架内引入更全面的感知与控制;宇树科技也在2026年初开源了UnifoLM-VLA-0模型,旨在处理复杂操作任务。这些案例表明,VLA确实推动了机器人向开放任务理解迈出了关键一步。

但行业很快发现:理解任务指令,与理解物理世界,是两回事。

机器人不仅要知道“杯子是什么”以及“人要我拿杯子”,它还必须知晓杯子的重量、重心、材质摩擦系数,判断手指应以何种角度、多大力度接近,预判拿起时液体的晃动,以及放下时桌面的平整度。这些都属于物理常识。

2026年3月,一篇题为《World Models: Computing the Uncomputable》的长文曾假设了一个简单场景:尝试仅用文字描述“拍手”这个动作。你需要描述双手在空间中以皮秒为单位变化的相对位置、接触点、声音、手掌挤压过程、两掌间空气的流动、手臂的弯曲、袖口布料的反应、背景变化,甚至旁观者的反应。显然,任何人都无法用语言穷尽这个过程。

类似的,小鹏集团董事长何小鹏也曾指出,一段上千字的文字描述,往往也无法精准“翻译”一个十几秒的视频。这种由语言转译必然带来的精度缺失,加之VLA模型“依靠推理来归纳空间几何与物理定律”的底层逻辑,极易导致机器人抓取误差增大。任何微小的物理状态变化,如光线折射或物体形变,都可能严重影响VLA的动作输出。

这些问题的直接后果,便是业内诟病的泛化能力不足。

有技术专家指出,VLA的本质是将高维视频数据降维到语言域,实现视频与文本指令的对齐,再通过大量机器人经验数据(如轨迹数据)进行训练,让机器能基于模仿学习执行任务。其范式本质是在已有视觉语言基座模型上,进行针对“机器翻译”任务的“后训练”。

这种模式可能带来两个局限:其一,模型训练往往与特定机器人本体强绑定。更换机器人形态或构型,就需要大量新数据重新适配,部署成本高昂。其二,VLA模型更多是“知其然”,而非“知其所以然”。它通过模仿学习复现经验,但面对训练数据中从未出现过、需要复杂推理与规划的新颖场景(即长尾问题)时,往往束手无策,因为它无法预测一个动作会引发怎样的连锁物理反应。

这些问题,本质上不是语义理解的短板,而是物理建模的缺失。

2. 被误读的VLA


“VLA已死”这个说法过于锋利,也极易被误读。如果将其理解为“机器人不再需要视觉、语言和动作模型”,那显然是错误的。

尽管Jim Fan让“VLA安息”,但即便是英伟达自身,也并未真正放弃VLA。根据英伟达Cosmos的最新资料,其预测视频生成能力可用于物理AI任务的后训练、闭环策略和仿真。同时,英伟达仍在利用Cosmos等世界基础模型为GR00T等机器人模型生成训练数据。

这揭示了一条更真实的演进路线:并非抛弃VLA,而是将VLA、世界模型、合成数据、仿真、真实机器人数据及底层控制进行重新组合与定位。

传统VLA范式的问题在于,它容易被简化为“视觉/语言输入 → 动作输出”的单一路径。这种架构的优势在于语义泛化能力强,能利用互联网规模的图文知识,让机器人理解更多物体和任务关系。

但其短板同样突出:它对物理过程的建模是隐式的、不充分的。它擅长回答“这是什么”和“我要做什么”,却不擅长回答“我这样做之后,世界会发生什么”。Jim Fan所批评的,正是这种重心错配——过去的VLA将大量能力押注在语言与知识理解上,却把连续动作、接触动力学、状态变化这些机器人最核心的难题,压缩成了一个简单的“动作输出头”。

因此,更准确的判断应当是:传统的、单一的VLA范式正在被挑战和演进,但VLA所代表的任务理解能力本身并未失效。VLA仍然是机器人理解人类意图、接入开放任务的重要接口。没有VLA,机器人难以摆脱固定程序;但仅有VLA,机器人也无法真正驾驭复杂的物理世界。

这才是“VLA已死”论调最需要被校正的地方:VLA不是死了,而是不够用了。

3. 世界模型不是终局

2026年3月,有行业人士公开预测:“世界模型将成为下一个流行词。六个月后,每家公司都会自称世界模型公司来融资。”这或许为当前的世界模型热潮提供了一个鲜明的注脚,甚至有人断言世界模型将全面取代VLA。

然而,VLA和世界模型并非同一层面的概念。VLA更接近于一个行动策略模型,它回答的问题是:“基于当前观察和指令,我现在该做什么?”世界模型则更接近于一个环境预测模型,它回答的问题是:“如果我执行这个动作,下一时刻的世界会变成什么样?”

这两者看似接近,实则差异显著。一个VLA系统接收图像和指令后,直接输出机器人动作序列。它的核心是将“观察”与“指令”映射为“行动”。而世界模型关心的是状态变化,它通过预测动作执行后的世界状态,来帮助模型理解物理动力学。

以前文提到的拍手为例。对人类而言,拍手是瞬间完成的简单动作;但若要用语言精确描述其全过程,则涉及空间轨迹、速度、接触力学、声学、空气动力学乃至衣物形变等一系列连续物理变化。VLA可以将“拍手”识别为一个任务指令,但世界模型试图理解和模拟的,是双手运动过程中所遵循的物理规律及其带来的全部状态改变。

两者的区别可以浓缩为一句话:VLA让机器人理解任务,世界模型让机器人预判后果。这正是世界模型价值凸显的原因。

目前,世界模型在产业中至少有三类用途:其一,作为数据生成器,补充昂贵且稀缺的真实机器人数据;其二,作为仿真训练场,大幅降低真实环境中的试错成本;其三,作为预测模块,在机器人行动前评估不同动作可能导致的世界状态,辅助决策。

Jim Fan提出的WAM则更进一步:它并非将世界模型作为外部训练工具,而是让模型同时预测未来世界状态和生成机器人动作,将“世界预测”与“动作生成”融合进同一套架构。这也正是DreamZero论文区别于传统VLA的核心——通过视频作为世界演化的稠密表征,联合建模视频与动作。

但反过来,世界模型也不应被神化。当前行业的一大现象是,“世界模型”正在变成一个什么都能往里装的“筐”。据不完全统计,国内已有超过30家公司以不同形式宣称涉足世界模型:做视频生成的,可以说自己在生成世界;做仿真的,可以说自己在构建世界;做自动驾驶模拟的,可以说自己在预测世界。

结果是,世界模型从一个严谨的技术方向,有滑向营销概念的风险。事实上,学术界和产业界对世界模型的定义仍存争议:一方认为,真正的世界模型必须包含对潜在状态的精确预测和物理因果理解,而非仅仅模拟视觉外观;另一方则认为,通过像素级视频预测,模型同样能学习到物理规律。

有AI从业者坦言:“目前世界模型并没有一个标准的定义。市场上有多个流派,各有主张,也各有领军人物支持。”这正是讨论世界模型时最需要警惕的地方。

对机器人而言,一个世界模型的价值,不取决于其生成视频的逼真程度,而取决于它能否融入真实的任务闭环:它预测的状态是否符合物理规律?生成的数据能否切实提升机器人的真实表现?能否有效处理接触、摩擦、柔性物体和长程任务?能否与机器人控制系统稳定耦合?

如果无法回答这些问题,世界模型可能只是一种更高级的视频生成技术,而非具身智能的可靠基础设施。更值得注意的是,世界模型本身也存在“幻觉”风险。在视频生成中,物体穿模、违反重力等错误可能只是视觉瑕疵;但在机器人训练中,这些错误会转化为错误的物理经验,误导机器人学习。

一个看起来合理但物理错误的世界模拟,对机器人来说可能比没有模型更危险。因此,不能因为VLA存在短板,就将世界模型推上神坛。世界模型补足的是“物理预判”能力,但它最终必须接受真实世界的严格校验。这也解释了为何众多机器人公司仍在持续采集遥操作数据、真机实验数据和现场数据——仿真可以加速进程,但真实世界永远是最终的裁判。

4. 比流行词更重要的事情

将VLA与世界模型放在一起讨论时,最容易陷入的误区是将其视为简单的替代关系:旧路线是VLA,新路线是世界模型,前者过时,后者上位。这种叙事听起来很爽,却远离事实。

更接近现实的图景是,机器人系统正从依赖单一模型的叙事,转向构建分层协同的架构。一个真正可用的机器人,至少需要四层核心能力:

任务理解层:负责解析人类指令,识别目标物体,定义成功标准。VLA在此层仍扮演关键角色。
状态预测层:负责模拟动作执行后世界状态的变化。世界模型或WAM在此层作用显著。
运动控制层:负责将高层意图转化为连续、稳定、可执行的身体动作,包括轨迹规划、力控、避障与平衡。
数据闭环层:负责从每一次成功与失败中回收数据,诊断错误来源(是识别错误、预测错误、控制错误,还是场景超纲),并用于系统迭代。

这四层能力,缺一不可,没有任何一层能单独实现“通用机器人”。VLA解决不了所有问题,世界模型同样不能。VLA更像是任务入口,世界模型更像是物理预测器,控制系统是执行器,而真实数据则是校准器。

目前,一些团队正将世界模型作为VLA的数据生成器与仿真训练平台,用合成数据增强VLA的动作精度与泛化能力。另一些前沿尝试则致力于将世界模型能力直接注入VLA架构。例如,智平方的GOVLA 1.0(Video2Act)大模型,虽然在整体上仍属VLA架构,但其明确表示嵌入了世界模型,并引入“快慢系统”概念,由世界模型在慢系统中负责任务拆解、逻辑推理与行动预测。

智平方创始人郭彦东指出:“VLA在具身智能产品上,是一个具有‘终局感’的架构范式。”同时他也强调:“用世界模型增强VLA,与将世界模型融入VLA,是两种不同的范式。我们认为,将世界模型融入VLA,使其具备更强的泛化能力,是VLA进化的必由之路。”此外,更前沿的学术研究已在探索让VLA与世界模型共享信息表征,并共同决策动作输出,尽管这条路径尚处早期。

归根结底,“VLA已死”是一个吸引眼球的好标题,却不是一个严谨的好结论。它的价值在于给行业提了个醒:不要再简单地将大语言模型的成功经验套用到机器人身上。机器人不是ChatGPT加上机械臂,也不是视觉语言模型接上一个动作输出头。真实世界的连续性、物理性与不可逆性,决定了机器人必须学会理解“动作如何改变世界”。

VLA真正需要的不是一场葬礼,而是一次深刻的进化;世界模型真正需要的也不是被捧上神坛,而是扎实的落地应用。具身智能行业的下一个焦点,或许不该是追逐下一个流行词,而应关注谁能将任务理解、世界预测、运动控制与真实数据闭环,整合成一个真正可部署、可进化的系统。

到了那一天,无论是VLA还是世界模型,都将不再是文章标题里争论不休的热词。它们会沉淀为机器人身体里,那些默默工作、不再被单独提及的基础能力。



来源:https://www.163.com/dy/article/KSH3NHBQ0512MLBG.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

视觉语言模型VLA发展前景与市场争议深度解析
AI
视觉语言模型VLA发展前景与市场争议深度解析

不能因为VLA有短板,就把世界模型推上神坛。 “So let s all take a moment of silence for our dear friend VLAs They ve served us well, rest in peace, long live World Action

热心网友
05.12
Midjourney视频动作优化指南提示词技巧实战解析
AI
Midjourney视频动作优化指南提示词技巧实战解析

MidJourney视频动作僵硬常因提示词未能描述真实运动规律。优化关键在于:精确描述动作的时间连续性、节奏与物理约束;为关键部位设定稳定性锚点;合理搭配动态参数;将复杂动作拆解为分镜级描述。通过显式排除违反常识的运动,并强化帧间一致性,可显著提升动作的自然流畅度。

热心网友
05.10
夜血W割喉之狼如何实现低门槛高爽快连招横板动作新体验
游戏资讯
夜血W割喉之狼如何实现低门槛高爽快连招横板动作新体验

《夜血W:割喉之狼》是一款赛博朋克像素风横版动作游戏。玩家扮演义体改造的“狼王”洛雷托,在帮派叛乱中追寻养父死亡真相。游戏融合高速战斗与类银河城探索,通过钩锁突进、无障碍空中连招等设计,兼顾华丽视觉与低门槛操作,让玩家体验流畅爽快的战斗节奏。

热心网友
05.10
慢动作视频制作教程 如何用MJ实现时间凝固效果
AI
慢动作视频制作教程 如何用MJ实现时间凝固效果

针对Midjourney生成视频的慢动作效果,需后期处理。介绍了五种方法:剪映适合新手全局减速;万兴喵影可关键帧曲线变速;DaVinciResolve提供专业光学流插帧;PremierePro结合时间重映射与冻结帧;Videoleap便于移动端局部变速。各方法均需输出高帧率以保证流畅度。

热心网友
05.09
重庆至昆明高铁建设提速未来两小时半可达
业界动态
重庆至昆明高铁建设提速未来两小时半可达

渝昆高铁宜宾至盐津南段启动铺轨,标志着这条设计时速350公里的线路建设进入最后冲刺阶段。该段位于四川盆地向云贵高原过渡地带,施工难度大。全线贯通后,重庆至昆明最快2 5小时可达,将紧密连接成渝与滇中地区,促进西南区域经济协同发展。

热心网友
05.09

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

空调行业困境即将迎来转机
业界动态
空调行业困境即将迎来转机

先别慌,也别急。今年以来的空调市场,竞争确实激烈,走势也充满动荡与不确定性,内卷成了常态。但对于一部分空调企业而言,眼下的煎熬不会持续太久,好日子其实已经不远了。 最近,不止一位空调企业的营销负责人坦言:“现在一线市场上,我们根本顾不上核算成本。只要有订单、能出货,就想尽一切办法去抢。”进入2026

热心网友
05.12
星神纪元角色转职攻略与职业进阶指南
游戏攻略
星神纪元角色转职攻略与职业进阶指南

在《星神纪元》的宏大世界中,角色的成长路径充满了策略与选择。转职,作为游戏进程中的关键转折点,不仅是角色实力的质变,更是玩法深度与战斗体验的全面升级。精准掌握转职的奥秘,将彻底改变你的冒险旅程,开启专属的强者之路。 星神纪元角色转职攻略:条件、流程与核心技巧 当角色等级满足特定要求后,转职系统便会解

热心网友
05.12
三角洲行动S8不归之人任务通关攻略与技巧详解
游戏攻略
三角洲行动S8不归之人任务通关攻略与技巧详解

在热门战术射击游戏《三角洲行动》中,“S8不归之人”任务以其高难度和丰厚回报成为玩家们关注的焦点。想要高效通关并获取全部奖励,掌握一套系统性的攻略思路至关重要。本文将为你全方位解析该任务的通关技巧与核心策略。 三角洲行动S8不归之人任务通关全攻略 “S8不归之人”任务拥有独特的机制与高强度对抗。开局

热心网友
05.12
炉石传说团队协作成就攻略 梦幻组合高效通关指南
游戏攻略
炉石传说团队协作成就攻略 梦幻组合高效通关指南

炉石传说团队协作:梦幻协作成就攻略 “团队协作:梦幻协作”这个成就,目标很明确:用150张“团队协作”牌召唤出的白银之手新兵。但实际操作起来,你会发现它是个不折不扣的“马拉松”式累积成就,难度不小。 为什么说它难?即便你手握“虚灵任务”体系,进度依然缓慢。核心矛盾在于,你不仅需要场上有足够的格子来容

热心网友
05.12
OKX买币提币路径详解 新手必看划转与充值入口区别
web3.0
OKX买币提币路径详解 新手必看划转与充值入口区别

对于刚接触加密货币交易的新手而言,理解平台内不同资金路径是首要任务。本文以OKX为例,清晰区分了“买币”与“提币”的本质区别,并详细解释了“资金划转”与“链上充值”两个核心入口的功能与使用场景。掌握这些基础操作逻辑,能有效避免误操作,确保资产流转安全顺畅,是迈出Web3世界的第一步。

热心网友
05.12