首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
VLA:世界模型的具身智能新范式,技术路径解析

VLA:世界模型的具身智能新范式,技术路径解析

热心网友
22
转载
2026-03-28

面对机器人不够聪明的现实窘况,不少创业公司开始押注世界模型这条技术路线。宇树科技创始人王兴兴在3月中旬的英伟达GTC大会上判断,在通往具身智能ChatGPT时刻的路径中,世界模型几乎“看不到天花板”,是更主流的技术方向。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

有了世界模型充当“大脑”,机器人可以在“脑海”中的模拟和推演不同行动可能带来的后果,提升了决策性能。商汤科技联合创始人、执行董事、大晓机器人董事长王晓刚近日接受南都记者采访时形容,世界模型能让机器人了解外部世界的物理规律,并像人类一样进行思考判断。

需要厘清的是,具身智能领域的世界模型,与学者李飞飞等探索的世界模型产品并不相同。王晓刚解释称,李飞飞所做的世界模型更偏视频生成,可构建供用户访问的3D世界,应用于游戏或虚拟现实场景。具身智能语境下的世界模型,则用来指导机器人与物理世界交互。


商汤科技联合创始人、执行董事、大晓机器人董事长王晓刚参加博鳌亚洲论坛2026年年会。

过去一年中,在具身智能领域“唱主角”的方案是VLA(视觉-语言-行动)模型。VLA集成了视觉感知、语言理解和动作生成,将感知输入直接映射为控制动作,类似于模仿人类将看到的事物、所理解的语言指令转化为行动的过程,但被认为缺少对物理世界的结构化理解。

一些业界知名人士已公开表达VLA的局限性。王兴兴说,VLA模型面临泛化能力受限等瓶颈,天花板更低。英伟达机器人主管Jim Fan也在2月初发文称,2025年,具身智能行业由VLA模型主导,但2026年将成为世界模型首次为机器人领域典型基础的一年。

目前,包括宇树科技、大晓机器人在内的企业已推出各自的世界模型。3月中旬,大晓机器人将旗下40亿参数的世界模型“开悟世界模型3.0”开源。公司方面介绍,这款世界模型并非像VLA那样在大语言或视觉模型后简单附加运动接口,而是以自然界基本物理规律与因果规律为认知根基,打破传统具身智能“行为模仿”的技术局限。

王晓刚告诉记者,训练VLA模型主要依赖昂贵且稀缺的真机数据,这类数据由人工操作机器完成采集。而世界模型更多转向互联网上的图像和文字数据,这些数据记录了大量的物理规律,“相当于你在互联网上看了很多课本,教你物理定律是什么,人的行为逻辑是什么”。

“但光读书还是不够。”王晓刚进一步介绍,机器人世界模型还需要获取人类在真实环境中如何工作、生活,以及如何与物理环境交互的数据。在此基础上,即使理解了物理世界的规律、知晓了人类的操作方式,最终仍需将这些行为映射到机器的参数上,因此需要少量的真机数据。

不过,世界模型的顺利落地并非易事。王兴兴说,视频生成模型可以在虚拟空间中可实现近乎零误差、极高保真的模拟效果。然而,把这一模型部署到机器人上时,即使只有一毫米的偏差,也可能导致与实际效果的巨大差异。要实现视频生成世界模型和真机操作之间的对齐,依然极具挑战。

随着越来越多机器人厂商拥抱世界模型,VLA模型将何去何从?一位头部具身智能数据服务商的联合创始人向南都记者表示,二者可能会融合,VLA要依托世界模型对世界的理解能力。

王晓刚同样认为,短期内,二者是相互协作的关系。世界模型先在“脑海”中预演未来可能发生的各种情景,而具体的执行交由VLA模型完成。从长期来看,世界模型很可能将VLA的能力全部吸收整合。

2025年6月,阿里巴巴达摩院、湖畔实验室和浙江大学研究团队发布一项研究,将VLA模型和世界模型集成在一个框架中:世界模型通过结合动作与视觉信息理解来预测未来状态,这对于成功执行诸如抓取等灵巧操作任务至关重要。由于世界模型能预判潜在动作的后果,这有助于做出更明智的决策,从而优化动作选择,最大限度地提高任务成功的概率。同时,框架中的动作模型基于输入的图像生成后续动作,动作生成过程增强了对潜在行为模式的理解,从而反向促进了世界模型的视觉生成能力。实验结果表明,融合之后的模型性能优于独立的动作模型和世界模型。

由于当下行业内尚未形成统一且成熟的技术范式,宇树科技在招股书中称公司采取世界模型与VLA并行推行的策略。推出过VLA模型的智元机器人,也在布局世界模型。智元Genie业务部生态及解决方案总监沈咏剑在3月25日接受南都等媒体采访时透露,目前智元内部有很多科学家和工程师在世界模型方向上做技术探索。

“从重要程度来讲,我觉得它的重要性不逊于VLA或相关路线。”沈咏剑说。

采写:南都N视频记者 杨柳 樊文扬 蒋小天 发自北京、海南博鳌

来源:https://www.163.com/dy/article/KP4UISMS05129QAF.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

AI+具身智能“造血”成功:极智嘉(02590)成为To B智能机器人赛道首个“盈利样本”
科技数码
AI+具身智能“造血”成功:极智嘉(02590)成为To B智能机器人赛道首个“盈利样本”

当下,全球AI领域的竞争早已告别“拼参数”的粗放阶段,资本市场的考量愈发务实——谁能将AI研发投入转化为真实利润,谁就能抢占先机。在这场从“技术概念”到“商业实效”的转型竞赛中,率先跑通商业闭环的企

热心网友
04.07
获京基智农控股后,汇博机器人加速具身智能从轻量到重型全谱系产品落地
科技数码
获京基智农控股后,汇博机器人加速具身智能从轻量到重型全谱系产品落地

来源:环球网【环球网科技综合报道】据36氪研究院预测,2026年中国具身智能产业将迎来两大里程碑:市场规模正式突破万亿元大关,人形机器人出货量有望冲击十万台量级,行业正式从技术探索期迈入规模化落地的

热心网友
04.07
机器人舞姿爆红背后:具身智能行业“卡脖子”难题,终于有了新解法
AI
机器人舞姿爆红背后:具身智能行业“卡脖子”难题,终于有了新解法

头图由智象未来AI大模型生成智东西作者 王涵编辑 漠影在演唱会、各大晚会的舞台上,机器人伴舞团以整齐划一、精准卡点的舞姿惊艳全场。这种整齐划一不仅是硬件的胜利,更是“训练有素”的结果。具身智

热心网友
04.07
全球具身智能开发者大会深圳落幕,首秀带来三大变革
科技数码
全球具身智能开发者大会深圳落幕,首秀带来三大变革

来源:科技日报科技日报记者 罗云鹏3月30日,全球首届具身智能开发者大会暨“具亮计划”黑客松・大湾区巅峰赛在广东省深圳市落幕。大会共吸引全国顶尖高校、科研院所及高新企业上百支队伍报名参赛,最终20支

热心网友
04.01
标准先行:解读新华网科技观察,如何推动具身智能产业化
科技数码
标准先行:解读新华网科技观察,如何推动具身智能产业化

  新华网北京3月31日电 题:标准先行,助推具身智能产业化  新华网 朱家齐  2026中关村论坛年会举办期间,多款具身智能机器人集中亮相,精准穿针、柔性抓取、协同歌舞、实景作业,让公众直观感受到

热心网友
04.01

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

iPhone17越狱是什么意思?如何安全操作?
iphone
iPhone17越狱是什么意思?如何安全操作?

iPhone17越狱:解锁系统潜力的双刃剑 当谈到iPhone17越狱,本质上是在讨论如何通过技术手段解除iOS系统的层层限制,获取设备的最高管理权限。这个过程就像拿到了一把万能钥匙,可以打开苹果生态系统中那些被官方锁定的功能区域。但值得注意的是,这把钥匙在使用时也需要格外小心——它既能开启个性化定

热心网友
04.22
小米蓝牙耳机重新配对后连不上是啥原因
电脑教程
小米蓝牙耳机重新配对后连不上是啥原因

小米蓝牙耳机重置后连不上?别急,根本原因在这里 遇到小米蓝牙耳机重置后无法连接手机的情况,先别急着断定耳机损坏。问题的核心,往往在于一个被称为“软硬件状态同步”的环节——简单来说,耳机虽然清空了数据,进入了可被发现的配对模式,但手机端可能还保留着旧的连接记录或缓存,导致双方信息无法匹配,信任链路无法

热心网友
04.22
最强祖师宗门灵兽饲养秘籍
游戏攻略
最强祖师宗门灵兽饲养秘籍

宗门灵兽完整养成指南:从入门到精通的全方位攻略 在宗门修仙体系中,灵兽不仅是并肩作战的强大伙伴,更是提升宗门整体实力的战略核心。然而,许多道友在成功获取灵兽后,常对后续的培养路径感到困惑。本指南将系统性地为你解析灵兽养成的完整体系,助你高效培育出能征善战、独当一面的专属灵兽,大幅提升宗门战斗力。 一

热心网友
04.22
书伴阅读如何投稿
手机教程
书伴阅读如何投稿

如何向书伴阅读投稿? 在阅读社群里分享自己的感悟、解读甚至是衍生创作,本身就是一件充满乐趣和意义的事。书伴阅读无疑是这样一个理想的分享平台。那么,如何才能让你的稿件成功登上这个平台,与更多同好者见面呢? 第一步:找准你的分享角度 动笔之前,先问问自己:你最想分享什么?是读完一本书后那股不吐不快的激动

热心网友
04.22
5月份开始量产?消息称苹果首款可折叠iPhone显示屏也将由三星供应
iphone
5月份开始量产?消息称苹果首款可折叠iPhone显示屏也将由三星供应

苹果折叠屏iPhone新进展:三星包揽关键部件,屏幕平整度或成亮点 上周行业里传得沸沸扬扬,说苹果今年秋季要推的首款折叠 iPhone,运行内存定了12GB,将由三星电子供货。按照苹果一向的节奏,生产预计第二季度就会启动。 这还没完。最新消息来了,除了内存,这款折叠设备最核心的部件——屏幕,看来也得

热心网友
04.22