首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
VLA与世界模型:互补共存,赋能通用人工智能

VLA与世界模型:互补共存,赋能通用人工智能

热心网友
80
转载
2026-03-26

一段时间以来,围绕VLA(Vision-Language-Action,视觉-语言-行动)模型、WMA(World-Model–Action,“世界模型+动作策略”)模型两条路线的讨论,是具身智能领域里的热点话题。现在,大家似乎不约而同地决定放下争议,协同前行。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

日前,智元机器人启动了一项机器人赛事AGIBOT WORLD CHALLENGE @ ICRA 2026(以下简称 ICRA 2026),两大核心赛道即为Reasoning to Action(推理-操作)和World Model(世界模型)。前者包括线上仿真与线下真机两个阶段,后者则聚焦具身智能中的生成与预测能力,采用线上竞赛方式。

3月25日,智元Genie业务部生态及解决方案总监沈咏剑在接受包括澎湃科技(www.thepaper.cn)在内的媒体采访时表示,从长期趋势看,世界模型与VLA并不一定是替代关系,未来存在结合的可能。“从解决问题的层面上来说,有可能会有一些融合或者说合作的状态,二者不算是替代和被替代的关系。”

VLA曾一度被视为具身智能的重要主流路径,即让机器人基于视觉输入和语言指令,直接完成动作生成与执行。但随着机器人开始进入更复杂、更长链条的任务场景,仅仅“看懂指令并做出动作”已不够。机器人还需要理解任务目标、拆解步骤、推演环境变化,并在执行过程中持续调整策略。

沈咏剑介绍,此次赛事中设置的世界模型赛道考察的是模型根据机器人动作建模物理环境动态的能力。参赛者需要基于真实机器人观测与动作信号,训练视频生成模型,生成机器人在多个真实任务场景中的交互视频。


推理-操作赛道。来源:智元

另一条“推理-操作”赛道,同样考核的是机器人去理解-执行任务这一具体过程。沈咏剑提到,去年的比赛更多是“叠衣服”这类相对明确、固定的任务,机器人基本是“让它做什么,它就做什么”;而今年则加入了更多需要机器人先理解任务、再进行拆解和执行的场景,例如“整理桌面”这类任务,机器人不仅要完成动作,还要先理解什么算整洁、先做什么后做什么,再完成整套流程。


世界模型赛道。 来源:智元

沈咏剑认为,当前世界模型的定义还未收敛,其核心可以概括为一种对未来状态的预测与推演能力:系统基于当前可见的多模态信息,判断下一时刻可能发生什么,或者在接收到任务指令后,推演机器人自身及周围环境接下来会发生怎样的变化。在他看来,这与当前VLA的范式并不完全相同,是相对独立的一条技术路线。

从智元近一年的公开布局看,该公司本身也并未只围绕单一路线推进。智元在2024年底推出了AgiBot World,包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模高质量真机数据集。2025年3月,智元发布首个通用具身基座模型——智元启元大模型(Genie Operator-1)。今年1月,智元又发布了Genie Sim 3.0仿真平台,该平台基于NVIDIA Isaac Sim构建,融合三维重建与视觉生成技术,可实现数字孪生级高保真环境。与此同时,围绕推理与操作融合、全身控制等方向,2026年1月,智元具身研究中心宣布推出第二代一体化具身大小脑系统GenieReasoner。

沈咏剑表示,当前整个具身智能行业的人才仍处于稀缺状态,特别是高素质、顶尖的算法人才,他们希望通过赛事吸引更多优秀人才进入这一领域。

来源:https://www.163.com/dy/article/KOUVUE6U0514R9P4.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

具身智能研发框架Dexbotic重塑机器人开发流程
AI
具身智能研发框架Dexbotic重塑机器人开发流程

近日,开源具身智能原生框架Dexbotic宣布正式支持以RLinf作为其分布式强化学习后端。对具身智能开发者而言,这不仅是一次普通的工程适配,更意味着VLA模型研发中长期存在的「SFT与RL割裂」问题,正在被真正打通。 这是一种典型的「乐高式协作」:双方不强行Fork、不粗暴揉合代码,而是保持清晰边

热心网友
05.13
RMS-MoE模型通过检索记忆优化专家路由调度效率
AI
RMS-MoE模型通过检索记忆优化专家路由调度效率

随着大模型参数规模不断增长,混合专家(Mixture-of-Experts, MoE)架构因其稀疏激活特性,成为平衡模型性能与计算开销的主流方案。然而,在实际的Web级应用部署中,一个关键挑战日益凸显:传统MoE的路由机制通常是“无记忆”的。 试想,在搜索引擎、智能问答或多轮对话等高并发场景下,用户

热心网友
05.12
编程入门指南从零基础到理解核心概念
编程语言
编程入门指南从零基础到理解核心概念

编程十年的一点分享 在软件开发的路上走过十几年,从一个爱好者到以此为业,有些体会或许值得聊聊,就当是抛砖引玉吧。 最早接触编程,是从BASIC和C语言开始的。工作后,随着需要,陆续学习了dBase、Access这类桌面数据库的开发。真正以开发为职业,可以说始于FoxPro 5 0,之后技术栈随着项目

热心网友
05.07
编程初学者入门指南与核心思维解析
编程语言
编程初学者入门指南与核心思维解析

引言 编程,是一门实践科学。这意味着,学习它的最佳方式就是动手去敲代码。但这是否意味着,我们可以因此轻视理论的学习呢? 入门编程 如果你去各大技术社区提问“该如何入门编程”,五花八门的答案会瞬间涌来。 不过,仔细梳理一下,无外乎以下几种流派: 学院派 他们推荐从C语言入手,并辅以数据结构、操作系统等

热心网友
05.07
Agent 需要“油表”和“刹车”:一篇论文,扒光了 Agent 的“糊涂账”
科技数码
Agent 需要“油表”和“刹车”:一篇论文,扒光了 Agent 的“糊涂账”

想象一下这个场景: 你让 AI Agent 帮你修一个代码 Bug。它打开项目,读了 20 个文件,改了改,跑了一下测试,没过,又改,又跑,还是没过……来回折腾了十几轮,终于——还是没修好。 你关掉电脑,松了口气。然后收到了 API 账单。 上面的数字可能让你倒吸一口凉气——AI Agent 自主修

热心网友
05.06

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

创业板指大涨超2%创近六年新高 市场情绪高涨
科技数码
创业板指大涨超2%创近六年新高 市场情绪高涨

市场情绪显著升温,创业板指盘中涨超2%,报4013点,创2015年6月以来新高。深证成指与上证指数分别上涨1 28%和0 42%,整体表现强劲,超3200只个股上涨。

热心网友
05.13
鸿蒙智行智界FUV谍照曝光 溜背轿跑造型配大尾翼
科技数码
鸿蒙智行智界FUV谍照曝光 溜背轿跑造型配大尾翼

鸿蒙智行智界FUV高清谍照曝光,定位跨界轿跑,设计运动化。新车采用溜背造型与半隐藏门把手以优化风阻,车尾配备大尺寸尾翼。车顶疑似搭载激光雷达,将具备高阶智能驾驶能力。据悉,该车计划在纽博格林北环赛道进行性能测试,对标海外豪华超跑。

热心网友
05.13
深成指今日涨幅超过1% 市场行情最新解读
科技数码
深成指今日涨幅超过1% 市场行情最新解读

市场情绪回暖,深证成份指数盘中涨幅超1%。部分成份股表现活跃,润泽科技涨超14%,网宿科技、晶盛机电等涨幅均超11%,带动指数走强。市场资金对相关板块关注度提升,反映出结构性机会,后续需观察量能与板块轮动持续性。

热心网友
05.13
岚图知音实测续航1300公里 京沪线全程智驾无需充电
科技数码
岚图知音实测续航1300公里 京沪线全程智驾无需充电

岚图知音在京沪线1300公里实测中全程未充电,续航达成率超95%,公开智驾过程在复杂路况下未出现误判或制动异常,展现了高性能传感器与智能系统的协同能力。此次实测以真实场景验证技术可靠性,凸显系统优化对缓解续航与智驾焦虑的关键作用。

热心网友
05.13
余凯出席百度Create大会 地平线与百度战略合作深化
科技数码
余凯出席百度Create大会 地平线与百度战略合作深化

面对AI浪潮,职场人需转变思维,从执行转向整合与决策。核心竞争力在于定义问题、整合资源及情感连接。未来属于能融合专业深度、AI素养与人类软技能的“混合型”人才,主动构建AI工作流并发挥人类在创新与价值判断上的优势是关键。

热心网友
05.13