首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
VLA技术瓶颈凸显WAM崛起能否引领机器人GPT时刻

VLA技术瓶颈凸显WAM崛起能否引领机器人GPT时刻

热心网友
64
转载
2026-05-20

就在四月底,红杉资本AI Ascent 2026大会的舞台上,英伟达机器人方向负责人Jim Fan抛出了一个足够引爆圈子的论断:“视觉语言模型(VLA)已死,世界动作模型(WAM)当立。”他更进一步预测,未来一两年,机器人学习的主要“食粮”,将从昂贵的人类遥控操作数据,转向互联网上唾手可得的海量第一视角人类视频。

这番话,无异于在方兴未艾的具身智能领域投下了一颗深水冲击波。

有趣的是,在Jim Fan发言前,国内具身智能公司银河通用已联合英伟达、清华、北大发布了LDA-1B模型,旗帜鲜明地走向了“抛弃条件反射式模仿,拥抱世界模型”的路线。几乎同时,生数科技推出的通用世界行动模型Motubrain,在WorldArena与RoboTwin 2.0两项国际权威榜单上双双登顶。

一时间,业内众声喧哗。有人拍手称快,认为终于找到了通往通用机器人的正确路径;也有人冷眼旁观,觉得这不过是巨头为自身利益造势的又一轮叙事。支持者看到的是机器人从“模仿”走向“理解”的质变曙光;反对者则坚持,VLA在精细控制等领域的优势,短期内依然难以被取代。

那么,这场关乎机器人大脑未来的路线之争,核心矛盾究竟是什么?VLA真的就此沦为“昨日黄花”了吗?这场潜在的技术范式转移,又将如何重塑具身智能创业公司的生存逻辑?

01 WAM攻克了哪些难关?

要看清WAM的价值,不妨先看看VLA的“阿喀琉斯之踵”在哪里。

VLA的训练逻辑直观而有效:模仿人类遥控操作。你教它“拿起红色杯子”,它就记住了“红色杯子”这个视觉特征与“抓取”这个动作的对应关系。下次看到相似场景,便能依样画葫芦。

但现实世界从不按剧本演出。杯子的颜色、摆放的角度、环境的光线,任何细微变化都可能让这套基于固定映射的“条件反射”系统失灵。VLA学到的,是一种高度脆弱、依赖标准环境的技能,其泛化能力在复杂多变的真实场景中面临严峻挑战。

WAM则提供了一套截然不同的解题思路。它的核心不再是简单的“看到-执行”,而是“预测-理解”。WAM试图让机器人在动手之前,先在内部的“物理模拟器”中预演一番:这个动作下去,物体会如何运动?液体会如何流淌?整个场景将发生怎样的连锁变化?

这种内在的“物理想象力”,带来的第一个突破便是泛化能力的跃升。一个训练充分的WAM机器人,即便走进一间从未见过的厨房,也能基于对重力、摩擦力、惯性等物理规律的理解,做出合乎情理的判断。有研究(如HarmoWAM)表明,在背景、位置、物体语义全变的“零样本”场景中,WAM的表现比之前的顶尖VLA模型提升了33%。

除了泛化能力,WAM完成的另一项更具产业碘伏性的突破,在于对数据源的“结构性松绑”。

VLA长期被困在“遥操作数据”这座昂贵而狭小的孤岛上,每一帧训练数据都需真人遥控、真机采集,成本高昂。而WAM则可以像大语言模型吞噬互联网文本一样,去学习海量、免费、每日自然产生的人类第一视角视频(如各类生活分享、操作教程视频)。这意味着,机器人首次获得了从互联网视频中“自学”物理世界规律的潜力。智在无界的Being-H0.7模型,直接用20万小时人类视频进行预训练并取得优异效果,证明了这条路径的可行性。银河通用的LDA模型更进一步,将仿真数据、人类视频与机器人操作数据混合进行联合训练,打破了行业对“完美标注数据”的迷信。

不仅如此,WAM在另一个长期困扰机器人领域的难题——长程任务规划——上也取得了实质性进展。传统VLA通常只能处理两三个动作的短序列任务,步骤一多就容易“迷失”。而WAM的表现已开始脱离简单的演示阶段。例如,生数科技的Motubrain已能规划并执行包含十个原子动作的复杂任务链,这让机器人在真实场景中具备了更连续、更鲁棒的工作能力。

值得注意的是,国内团队在这条新赛道上的进展速度令人瞩目。银河通用的LDA-1B背靠清华、北大与英伟达的联合研发;生数科技的Motubrain登顶国际双榜;智在无界的Being-H0.7在综合排名中位列全球第一。

海外前沿实验室同样在快速推进。英伟达提出的DreamZero在真机实验中,对新任务和新环境的泛化能力较顶尖VLA模型提升超过2倍。

可以说,在这场通向物理理解的新竞赛中,国内与海外几乎站在同一起跑线上。然而,在一片喧嚣与期待之下,一个更根本的问题必须被回答:VLA真的到了该谢幕的时刻吗?

02 VLA被杀死了吗?

WAM的方向无疑是激动人心的,但“VLA已死”这个斩钉截铁的结论,需要更冷静的审视。

一方面,WAM展现的技术潜力确实诱人,它让机器人从机械模仿迈向物理理解,从依赖昂贵专用数据转向利用开放网络资源。智在无界用20万小时视频预训练的Being-H0.7能在6项国际评测中综合夺魁,这在VLA主导的时代难以想象。

另一方面,任何技术叙事的背后,都难免掺杂商业逻辑。理解这一点,关键看是谁在喊“VLA已死”。

英伟达,全球AI算力的头号供应商。无论VLA还是WAM,最终都跑在它的GPU上。但两者对算力的“胃口”天差地别。WAM需要对海量视频进行预训练,推理时还需进行复杂的物理模拟或扩散生成,其对GPU的消耗远非VLA可比。力推WAM,对英伟达而言,意味着更强劲的芯片需求与更高的客单价。一家芯片巨头,自然乐见市场转向更“吃”算力的技术路线。

因此,作为行业观察者,有必要区分哪些是客观的技术进步,哪些是被商业立场放大或引导的预期。撇开商业视角,WAM本身也面临诸多硬核挑战。

首先,在需要毫米级定位或精密力控的任务(如精密装配、手术辅助)中,WAM目前的表现仍弱于专精于动作优化的VLA模型。因为视频生成目标更关注像素一致性,而非关节级的精细控制。同时,其推理延迟虽经优化,仍普遍高于VLA。

其次,数据与算力门槛依然高企。联合训练视频与动作需要海量真机交互数据,以及高昂的扩散模型训练成本,非一般团队所能承受。

再者,当任务指令涉及抽象语言或复杂社交语境时,纯物理世界建模的WAM容易“看得懂画面,听不懂人话”。这说明,WAM在“理解物理”上迈出了一大步,但距离“融入现实”还有相当距离。而后者,恰恰是VLA目前更具优势的领域。

事实上,VLA在现阶段至少有三个维度的价值,是WAM难以简单替代的。

一是部署效率。在要求高精度、实时力反馈的场景中,VLA轻量化的“观察-动作”端到端架构,计算开销小、响应速度快,更容易在边缘设备上实现低成本实时部署。

二是工程成熟度。经过一年多快速发展,VLA的模型架构、训练流程、开源生态已相对成熟。创业团队能基于现有工具链,较快搭建出可用的原型系统。反观WAM,架构更复杂、训练不稳定、推理开销大,工程化落地的门槛明显更高。

三是与现有工业体系的兼容性。大量工业自动化场景不需要复杂的物理推理,只需稳定、精确、可重复地执行既定动作。VLA的模仿学习范式与这种需求高度契合,企业可通过少量示教快速让机器人掌握特定技能。

因此,更可能发生的演进路径,并非“WAM淘汰VLA”,而是两者的优势融合与场景分化。“VLA已死”更像一个极具传播力的行业警钟,而非最终的技术判决书。它提醒整个生态,不能安于VLA的舒适区,必须思考如何将物理理解能力融入现有框架。但就此断言VLA退出历史舞台,显然为时过早。

那么,当技术路线的争论甚嚣尘上,那些已经押注VLA的创业公司,此刻正面临着怎样的现实压力?

03 半年一变天,创业公司正在承压

从VLA被热捧到被质疑“已死”,中间不过半年多光景。机器人领域的技术迭代速度,已快到让产业参与者感到窒息。对财大气粗的科技巨头,这可能只是研究重心的微调;但对资源有限的初创企业而言,每一次“风向”变化,都可能是一次需要重新押上命运的赌局。

首当其冲的,是研发路线上巨大的沉没成本风险。

过去一年,大量初创公司围绕VLA构建了完整技术栈,投入重金购置遥操作设备,组建专业的数据采集团队。创始人们深信,积累高质量、高成本的遥操作数据,就是构筑未来的护城河。例如,自变量机器人在成立后累计融资超40亿元,其中相当部分用于数据工厂与真机数据团队建设;智平方一年内完成多轮融资,自建产线投产并实现月度百台级交付。这些数字背后,是一整套基于VLA范式建立的资产、团队与认知体系。

然而,当WAM浪潮袭来,这些巨额投入的价值面临重估。对于已完成大规模融资、团队达数百人的公司,技术路线的转向意味着惊人的沉没成本与组织阵痛。

技术风向的切换,迅速在人才市场引发连锁反应。

VLA时代,行业急需模仿学习、遥操作数据方面的专家;WAM时代,需求瞬间转向视频理解、物理仿真、世界模型构建。技能需求的快速变迁,迫使创业公司不得不重构刚刚搭建好的团队架构。

与此同时,人才市场的供需与价格体系随之剧烈波动。WAM方向成为热点,相关人才薪资水涨船高;而公司内部原有的高薪VLA团队,则面临技能过时或被动转型的压力。有报告显示,2026年春招季,具身智能岗位量暴增,平均月薪持续攀升,核心人才跳槽涨幅可达150%。创业公司不得不在新方向上高价抢人,同时消化旧方向上的团队惯性,两头承压的处境颇为艰难。

比人才问题更直接的,是产品价值可能面临的“瞬时贬值”。

一个残酷的现实是:当技术路线以“半年”为单位迭代,基于旧范式开发的产品,其市场价值可能迅速缩水。那些依赖昂贵遥操作数据训练出的专用机器人技能模型,在“互联网视频才是未来主食”的新叙事下,客户是否还愿意为其高昂成本买单?产品的核心竞争力是否需要重新定义?

所有这些问题,最终都会传导至资本市场,考验投资人的耐心与窗口期。

有行业报告指出,人形机器人投资正进入“去伪存真”的关键阶段,估值逻辑从概念炒作转向订单验证与供应链能力。报告明确提示,中游整机制造商面临“技术路线尚未收敛”的核心风险,其估值溢价将取决于模块化设计与软硬件协同优化的实际水平。

换言之,在技术路径快速演变的当下,投资人对于“故事”的容忍度正在降低。创业公司的融资,不再仅靠描绘一个性感的技术愿景,更需要在路线未明的环境中,同时证明自身的方向判断力、技术敏捷性与执行韧性。

回过头看,“VLA已死”或许并非既成事实,但它无疑是一记响亮的警钟。

在这个行业,选择比努力更重要,而做出选择的窗口期正在急剧缩短。对创业公司而言,这意味着必须在深度专注与快速灵活之间找到精妙的平衡;对投资人而言,则意味着需要以更审慎的眼光评估技术路线的长期生命力,避免被短期的叙事热潮裹挟。

机器人产业仍处早期洪荒,技术远未收敛。今天的主流,明天可能就成为历史注脚。WAM的崛起是真实的趋势,但VLA的价值也不会一夜消失。未来的答案,很可能不在非此即彼的取代,而在如何让“理解”与“执行”更好地协同,让机器真正学会在复杂现实中思考和行动。

来源:https://36kr.com/p/3816130162040579
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

高德世界模型基线开源 CVPR 2026挑战赛启动
AI
高德世界模型基线开源 CVPR 2026挑战赛启动

过去两年,从Sora到Veo,再到Cosmos,视频生成模型在“视觉逼真度”这条赛道上飞速发展,生成的画面已足以以假乱真。然而,一个根本性问题始终存在:这些模型真的“理解”了我们所处的物理世界吗?答案很可能是否定的。 事实上,一旦要求这些模型生成涉及机器人操作的视频,诸如“机械臂穿模、物体凭空消失、

热心网友
05.19
中国具身智能全球领先十万小时数据突破PI与英伟达技术壁垒
AI
中国具身智能全球领先十万小时数据突破PI与英伟达技术壁垒

当前,具身智能领域正面临一个关键瓶颈:过度依赖真机遥操作数据来训练机器人模型,这条技术路径的局限性日益凸显。 成本高昂是首要难题——采集一小时的遥操作数据往往需要数百元投入,并且必须搭建专业的动作捕捉环境。采集效率则是另一大硬伤:操作员通过屏幕遥控机械臂,其数据采集速度远跟不上真实生产线的作业节拍。

热心网友
05.19
中国具身智能模型登顶全球榜首开启机器人数据驱动新纪元
AI
中国具身智能模型登顶全球榜首开启机器人数据驱动新纪元

具身智能领域,最近被一群年轻人“刷新”了认知。 当行业还在仿真与现实迁移的课题中探索时,一支由00后主导的团队——灵初智能,选择了一条更直接的路径:用近十万小时的人类真实操作数据,为机器人“喂食”。这个数据量级,即便放在全球视野下,也堪称领先。 目前,业界常用的人类操作数据集多在几千至几万小时,即便

热心网友
05.19
智元远征A3人形机器人发布:续航10小时并支持空中漫步
AI
智元远征A3人形机器人发布:续航10小时并支持空中漫步

人形机器人赛道迎来一位实力强劲的新成员。4月13日,智元机器人正式推出其全新一代全尺寸人形机器人——远征A3。与以往侧重工业或服务领域的机器人不同,这款产品精准定位于一个充满想象力的场景,并打出了“为舞台而生”的鲜明标签。 那么,这台旨在征服舞台、点亮表演的机器人,究竟在哪些方面实现了突破?它又如何

热心网友
05.19
宇树科技对手IPO估值25亿专业机器狗市场前景分析
业界动态
宇树科技对手IPO估值25亿专业机器狗市场前景分析

杭州云深处科技科创板IPO申请获受理,拟募资25 03亿元。公司专注四足机器人B端工业应用,在电力巡检等领域市场份额领先,2025年实现首次盈利。与同行宇树科技侧重消费市场不同,云深处坚持深耕行业场景,其未来发展聚焦算法研发与产业化拓展。

热心网友
05.19

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Mac Studio M5性能深度解析 五大关键信息助你全面了解
iphone
Mac Studio M5性能深度解析 五大关键信息助你全面了解

苹果MacStudio库存见底,预示新款即将发布。外观预计延续经典紧凑设计,接口布局不变。核心升级为M5Max和M5Ultra芯片,性能大幅提升,但内存供应可能受限。固态硬盘速度有望翻倍。作为苹果专业桌面新旗舰,其起售价可能小幅上调,WWDC大会可能是发布窗口。

热心网友
05.20
尼克尔Z DX 24mm f/1.7镜头 适合C画幅人文扫街售1899元
业界动态
尼克尔Z DX 24mm f/1.7镜头 适合C画幅人文扫街售1899元

对于使用尼康Z卡口APS-C画幅(DX格式)相机(如Z fc、Z30、Z50)的摄影爱好者而言,在套机镜头之外选择一支定焦镜头,是提升创作自由度和画面质量的关键一步。尼克尔 Z DX 24mm f 1 7正是这样一款专为轻量化与大光圈设计的定焦镜头,目前京东售价1899元,为追求便携与画质平衡的用户

热心网友
05.20
彭军直言L3自动驾驶本质仍是L2,现有分级体系亟待重构
业界动态
彭军直言L3自动驾驶本质仍是L2,现有分级体系亟待重构

自动驾驶技术的分级标准正面临行业内部的深度反思与重构。在2026北京车展上,小马智行联合创始人兼CEO彭军发表的观点,将行业关注的焦点从技术参数转向了更为根本的责任归属议题。 彭军明确指出,当前广泛采用的L1至L5自动驾驶分级体系已显得“极其无厘头”。他认为,这些层级划分并非衡量自动驾驶商业化前景的

热心网友
05.20
特斯拉FSD无法升级引车主不满 马斯克承诺遭质疑
业界动态
特斯拉FSD无法升级引车主不满 马斯克承诺遭质疑

4月28日,《商业内幕》发布的一篇深度报道,揭示了特斯拉自动驾驶承诺背后日益凸显的信任危机。多年来,“未来将实现完全自动驾驶”是特斯拉吸引消费者的核心卖点,但对于众多早期支持者而言,这一愿景正变得愈发渺茫。 图1:马斯克确认HW3车型无法升级至无监督版FSD 问题的根源在于硬件代际差异。在近期举行的

热心网友
05.20
龙虾车圈热潮来袭现象深度解析
业界动态
龙虾车圈热潮来袭现象深度解析

当AI智能体不仅能说会道,还能帮你订餐、写报告,甚至用周杰伦的风格唱首歌时,汽车行业的竞争焦点,已经悄然从硬件参数转向了软件生态。这届北京车展,就是最好的证明。 “你能让它用周杰伦那种吐字不清的风格,唱首歌吗?”在火山引擎的展台,一位体验者向工作人员提出了这个有趣的要求。指令下达后,座舱里的“豆包”

热心网友
05.20