蚂蚁灵波因果世界模型论文入选RSS 2026 机器人边想边做新突破
近日,机器人领域传来一项重要进展:蚂蚁灵波科技联合香港科技大学等高校共同完成的学术论文《Causal World Modeling for Robot Control》,正式被国际机器人顶级会议 Robotics: Science and Systems(RSS)2026 接收。

RSS 在全球机器人学术界的地位举足轻重,长期聚焦于机器人学习、控制与感知等前沿方向,其录用标准极为严格。论文获此会议接收,不仅代表研究具备显著的学术创新性,也意味着其获得了国际同行的高度认可。
这项研究究竟解决了什么问题?其核心在于让机器人具备更高级的智能——不仅能够执行动作,更能预先“思考”动作将引发环境发生何种变化。研究团队提出了一套面向机器人控制的因果世界建模框架,并基于此构建了全球首个开源的自回归视频-动作世界模型 LingBot-VA。
LingBot-VA 的突破性在于,它使机器人能够在任务执行过程中持续预测环境状态的变化,并依据预测结果生成后续动作指令。这相当于赋予机器人一种类似人类的“观察-判断-行动”的连贯认知与决策能力。
对蚂蚁灵波科技而言,此次论文入选顶会,是对其“以世界模型驱动机器人控制”技术路线的有力验证。它进一步彰显了 LingBot-VA 作为具身智能基础模型的技术潜力。从长远看,该技术路径有望推动机器人从依赖精确编程的“执行器”,向能够理解环境、泛化任务并自主决策的“智能体”演进。
从“执行动作”到“预见变化”
对机器人而言,真正的挑战往往不在于执行某个动作,而在于理解该动作将引发的连锁反应。例如,拿起水杯后桌面空间的变化,或推开抽屉后内部物品位置的改变。若机器人仅能“机械执行”,则难以应对复杂动态的真实场景。
LingBot-VA 的核心创新,正是将这种“预见未来”的能力嵌入控制闭环。它使机器人能够先在内部模型中“模拟”世界状态的演变,再基于模拟结果决定当前动作。这是一种根本性的范式转变。
这也正是研究强调“因果”建模的关键所在。真实物理世界的发展遵循时间箭头与因果律。因此,机器人在预测未来时,也必须严格遵循时间上的因果关系进行逐步推演。LingBot-VA 将这种因果约束固化于模型结构之中:每一步预测仅依赖于历史观测与已执行动作,确保推演严格按时序展开。
由此,模型输出的不再仅是展示未来的“视频片段”,而是蕴含因果逻辑、可直接用于控制决策的“状态-动作轨迹”。这一设计还带来了额外优势:模型具备了更强的长时序记忆能力,这对于步骤复杂、耗时较长的实际任务至关重要。
技术实现与性能表现
在技术架构上,LingBot-VA 采用混合专家 Transformer(Mixture-of-Transformers, MoT)架构,将视频预测与动作生成统一于同一个自回归扩散框架。此外,模型引入了闭环推演机制:在任务执行中持续接收真实环境反馈,并据此修正预测,从而有效缓解长时推演中的误差累积问题。
理论需经实践检验。研究团队在仿真与真实机器人任务上对 LingBot-VA 进行了系统评估。
在仿真基准测试中,模型表现突出:在 RoboTwin 2.0 的 50 项双臂操作任务上,LingBot-VA 在 Easy 与 Hard 设置下的平均成功率分别达到 92.0% 与 91.1%;在 LIBERO 基准上,成功率高达 98.5%。
更值得关注的是其在真实场景中的性能。面对长时序任务、高精度操作以及柔性与关节物体操控三大类共 6 项高难度挑战,LingBot-VA 仅需 50 条真实示范数据即可完成适配学习。最终,其整体成功率较业界主流基线方法 π0.5 提升超过 20 个百分点,充分证明了其高效的数据利用能力与强大的任务泛化性能。
目前,LingBot-VA 的模型权重、训练与推理代码均已开源。研究人员与开发者可通过 Model Scope、Hugging Face 及 GitHub 平台获取相关资源,进行进一步研究或应用开发。
论文链接:https://arxiv.org/abs/2601.21998
项目主页:https://technology.robbyant.com/lingbot-va
相关攻略
蚂蚁灵波科技与高校合作提出的因果世界建模框架被机器人顶会RSS2026接收。该研究构建了开源自回归视频-动作世界模型LingBot-VA,使机器人能预测环境变化并自主决策。模型在仿真与真实任务测试中表现优异,显著提升了操作成功率和数据效率,相关资源已开源。
谷歌将海量街景数据接入其Genie世界模型,可生成基于真实地点的交互式模拟环境。该功能能模拟不同天气和视角,已用于Waymo自动驾驶的极端场景训练,并逐步向用户开放体验。目前模拟效果接近游戏画面,尚未实现照片级真实感和完整的物理规律理解,准确性仍有提升空间。
ASC26超算竞赛总决赛在无锡学院落幕,北京大学与清华大学分获冠亚军。赛事吸引全球300多支高校队伍,决赛需在功耗限制下搭建超算集群,完成基准测试与世界模型推理等前沿赛题。赛题紧密对接科研与产业热点,旨在培养跨学科复合型人才。
灵光App正式上线“体验世界模型”功能,首次将前沿技术引入手机。用户上传图片后,几秒内即可生成专属三维世界,并通过虚拟摇杆以第一人称视角沉浸式探索,实现从静态图像到动态交互空间的转化。
2025年3月10日,腾讯混元3D团队正式开源了业界首个专为世界模型设计的强化学习后训练框架——WorldCompass。该框架可视为此前发布的混元世界模型1 5的官方强化学习增强模块,其核心使命在于显著提升世界模型的指令遵循精度与长序列交互体验,推动智能体与虚拟环境的互动迈向新高度。 简而言之,W
热门专题
热门推荐
软银计划改造大阪工厂以建设大型电池生产线,旨在为自身AI数据中心提供稳定电力支持,减少对外部电网的依赖。该项目预计在未来五年内投入运营,以应对日益增长的AI算力需求。
冬至将至,为便于员工与家人团聚,公司将于12月21日至23日放假三天,24日照常上班。请提前妥善安排工作交接。感谢全体员工一年的辛勤付出,愿大家度过温暖安康的假期,以饱满状态迎接后续工作。
《仙逆:战天道》是一款融合塔防策略与Roguelite随机性的修真题材游戏,高度还原原著剧情与角色。游戏采用动态生成关卡,玩家需灵活搭配神通法宝构建战斗流派。其“死亡成长”机制使失败也能积累永久强化,契合修真主题。目前九游平台福利较为丰富,提供多项开服资源,有助于玩家前期发展。
DeepSeek-V4接口与模型文档于4月24日在官网公布,包含轻量化的flash版与高性能的pro版。此举标志着技术栈趋于成熟开放,旨在向市场传递技术就绪、开放合作的信号,可能影响AI工具生态与行业竞争格局。
学校元旦放假时间为2024年1月1日至3日,共三天,1月4日返校上课。假期需注意个人安全,合理安排休息与学习,及时调整作息。借助智能办公工具可提升通知效率,确保信息准确传达。预祝大家度过平安充实的假期。





