从VLA走向世界模型：具身智能的范式转移与突破

时间：2026-02-09 17:13

随着具身智能的向前发展，传统的VLA技术路线正在面临越来越多的挑战。所谓VLA模型，即视觉-语言-动作模型。它的技术逻辑可以简单描述为，将人类指令和外界多模态信息（声音、图像、视频）转化为计算机语言

随着具身智能的向前发展，传统的VLA技术路线正在面临越来越多的挑战。

所谓VLA模型，即视觉-语言-动作模型。它的技术逻辑可以简单描述为，将人类指令和外界多模态信息（声音、图像、视频）转化为计算机语言，继而控制机器人行为。

但在VLA模型的训练中，互联网上的静态、非结构化文本和图像数据，并不是训练所需的核心数据。物理世界数据的稀缺与复杂性，成为了制约VLA模型能力跃升的主要瓶颈。

VLA之后，具身智能接下来将往何处去？这成为了具身智能整个行业，都在试图解决的问题。

近日，蚂蚁灵波对外开源了LingBot-Depth、LingBot-VLA 、LingBot-World 以及LingBot-VA系列模型。其中 LingBot-VA 所代表的“边预测、边行动”的具身世界模型范式，正与行业近期的探索形成呼应。而四个模型的开源，则将这套能力拆成可复用的模块与接口，为开发者提供从研究验证到工程试验的基础设施，从而降低具身智能研发与集成门槛。

LingBot-VA开源，首创“自回归视频-动作范式”

蚂蚁灵波开源周中，具身世界模型LingBot-VA成为了收官之作，其核心突破在于它改变了机器人的思考方式。

传统机器人主要基于“视觉-语言-动作”范式，其决策模式类似于“条件反射”：看到什么，就做什么。这种方式难以应对需要多步骤规划和因果推理的复杂任务。

LingBot-VA则让机器人具备“脑补”能力。

在物理执行动作之前，它会在内部模拟并推演未来几秒的世界状态变化，再根据这个推演结果来决定当前的最佳动作。这使得机器人能够像人一样“先思后行”，显著提升了在复杂、长时序任务中的可靠性和智能水平。

实现这一切的基础在于，LingBot-VA在核心范式上的创新。

LingBot-VA首创了“自回归视频-动作范式”：将大规模视频生成模型与机器人控制深度融合，模型在生成“下一步世界状态”的同时，直接推演并输出对应的动作序列。

具体而言，Mixture-of-Transformers (MoT) 架构让视频流（宽而深，负责视觉推演）与动作流（轻而快，负责运动控制）共享注意力机制又保持独立；闭环推演机制：每一步生成都纳入真实世界的实时反馈（如摄像头数据），形成“预测-执行-感知-修正”的循环，防止幻觉漂移。

最后，异步推理管线让动作预测与电机执行并行处理，大幅降低延迟。

得益于LingBot-VA的技术创新，机器人在制作早餐、插入试管、叠衣物等长时序、高精度、柔性物体操控任务中，成功率相较业界基线模型平均提升约20%；在双臂协同操作基准RoboTwin 2.0上成功率首次超过90%，在长时序终身学习基准LIBERO上达到98.5%的平均成功。

LingBot 系列开源，构建具身智能的通用基础设施

除了LingBot-VA之外，蚂蚁灵波还连续开源了LingBot-Depth（空间感知）、LingBot-VLA以及LingBot-World。这四者共同构成了一套覆盖“感知-理解-模拟-行动”的完整具身智能技术栈。

LingBot-Depth相当于机器人的“眼睛”，通过高精度空间感知模型，解决透明、反光物体识别难题，透明物体抓取成功率从0提升至50%。

LingBot-VLA，类似于机器人的“大脑”，让机器人理解指令并规划基础动作。基于2万小时真实机器人数据训练，LingBot-VLA在GM-100基准测试中，成功率超越基线模型Pi0.5。

可以看到，与业内主流的“仿真到现实”（Sim-to-Real）路径不同，蚂蚁灵波更笃信基于真实世界数据训练的价值。

LingBot-VLA覆盖了9种主流双臂机器人构型（包括 AgileX，Galaxea R1Pro、R1Lite 、AgiBot G1等），实现了让同一个“大脑”可以无缝迁移至不同构型的机器人，并在任务变化、环境变化时保持可用的成功率与鲁棒性。

与高精度空间感知模型LingBot-Depth配合，LingBot-VLA还能获得更高质量的深度信息表征，通过“视力”的升级，真正做到“看得更清楚、做的更明白”。

LingBot-World，则是机器人的“数字演练场”。

利用多阶段训练和并行加速，LingBot-World可以实现长达近10分钟的连续、稳定和无损视频生成，以解决视频生成中的常见挑战——“长时漂移”，也即长时间的生成通常会出现物体变形、细节崩溃、主体消失或场景结构崩溃等现象。

同时，LingBot-World在长序列一致性、实时响应性以及对行动和环境动态之间的因果关系进行建模方面表现出色。这使得它能够在数字空间中“想象”物理世界，为人工智能代理提供一个具有成本效益、高保真环境，用于试错学习。

“机器人规模化的主要阻碍不在硬件，而在’反复训练/再训练（retraining）‘，也就是每做一个新任务或换一种机器人，往往就要重新采数据、重新调参，工程成本很高。这也是机器人很难从试点走向大规模部署的原因之一。”

MarkTechPost CEOAsif Razzag表示，蚂蚁灵波发布的一系列模型很有意思，从感知到认知，全栈（full-stack）体系，每个模型互为助力，并且全部开源。

也正是基于这样的设计，全面开源的LingBot系列模型，构建了具身智能完整的通用基础设施，让开发者可以按需选用或组合。这种新的研究范式，在降低具身智能研发门槛的同时，也加速了具身智能从实验室走向产业化的进程。（文 | 科技潜线，作者 | 饶翔宇编辑 | 钟毅）

来源：https://www.163.com/dy/article/KLB7BRB205118O92.html

具身时序机器人大模型真实世界智能加速

上一篇薛定谔的猫又被重新审视：量子叠加新实验 下一篇韩国出口增长靠半导体价格暴涨，汽车业受美关税冲击疲软

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-01

OpenClaw手机App上线，结果翻车了

OpenClaw 官方宣布，已正式推出 iOS 和 Android 原生移动 App，用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接：把 Agent 放进口袋里，让用户可以在移动端处理频道消息、任务和回复。从功能上看，OpenClaw 移动端并

科技数码 · 2026-07-01

优必选CEO周剑：家庭机器人生态核心投入过半精力

先说几个核心判断：优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上，直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进，现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景，另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间，技术路线尚未收敛

6月30日，申银万国在光连接系列研报中重点指出，MPO光连接器领域的投资机会值得高度关注。通俗来说，随着AI算力集群持续扩张，光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件，如今它直接决定着链路插损、可

科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上，区级部门一次性推出了7个AI“龙搭子”。其中，名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解，依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”，已在今年五一假期发布了内测版本。经过一个月市场验证后，该项目正式启动面向全社会的

科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日，南下资金持续大举买入港股，单日净流入金额高达58 95亿港元。接下来，我们直接盘点哪些个股获得资金青睐、哪些遭到减持：净买入方面，中芯国际领跑全场，单日吸金19 33亿港元；建滔积层板紧随其后，净买入10 59亿港元；腾讯控股获得7 65亿港元净流入；智谱（02513 HK）也有6 5