首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
“指挥双手”成风口:蚂蚁灵波布局具身智能更清晰

“指挥双手”成风口:蚂蚁灵波布局具身智能更清晰

热心网友
80
转载
2026-01-31


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

作者 | 郭海惟
邮箱 | guohaiwei@pingwest.com

马上要过年了,蚂蚁旗下的灵波科技这几天像是下饺子一样,连续发了一堆具身的新成果。

他们1月27日先是发了开源高精度空间感知模型 LingBot-Depth,次日则发了具身大模型 LingBot-VLA。

作为一家机器人公司最常见的核心产品,当大家以为VLA已经是这一波技术宣发的终局时,蚂蚁又水灵灵地端出来了两款世界模型,而且两款世界模型的定位都不一样。

这大概就是大集团做具身大脑的魅力吧。要么不出手,一出手就是一整个LingBot家族。

29日官宣的“世界模型”叫LingBot-World。

蚂蚁方面将它定位成一个的开源版的Genie3。它可以生成一个高保真、可控制且逻辑一致的模拟环境。与Genie3类似,它拥有许多世界知识、力图理解世界的物理规律。

而昨天官宣的“世界模型”,则叫LingBot-VA。

从名字可以看出来,相比于VLA,VA直接将Video和Action对应了起来。最新将它称之为“自回归视频-动作世界模型”。通过自回归模型的方式,LingBot-VA可以通过视频去预测下一个动作,再重新解码成机器中一个个具体的操作,从而实现大脑与真实世界交互中的自我进化的同时,也大幅提高了视频学习的效率。

看完技术报告,上述两个模型都有很好的表现。

LingBot-World:

在视频质量、动态程度、长时序一致性与交互能力等关键指标上达到了领先地位。


而LingBot-VA:

在 LIBERO 和 RoboTwin 等主流基准测试中,分别以 98.5% 和 92%+ 的成功率大幅领先现有模型。在针对具身控制中常见的“长时漂移”难题,复杂任务成功率超过 98%。



而且还能做到帮你做实验:

做早餐等日常的操作:

而在昨天,Genie3终于开放了公开了世界模型的入口,给目前火热的世界模型市场又添了一把火。

相比于Genie3的世界模型之路,蚂蚁灵波的世界模型路径更加有指向性:

即有思考地赋能“开源”的“具身生态”。

相比于Genie3,LingBot-World和LingBot-VA都是开源的。LingBot-World这相当于让很多具身开发者拥有了自己的模拟训练场,成本更低,具备二次开发的潜力;而LingBot-VA则让世界模型能够直接上机验证部署。

蚂蚁方面表示,“未来 VLA 与世界模型的深度融合将释放更大的协同潜力,这也是我们通往通用具身智能的核心路径。”

1

从做梦者到模拟者

当下的世界模型大致可以粗略分成三类:

第一类大概是以Lecun新创业的AMI Lab为代表,他们的目标是想要做一个智能上限的突破。 第二类则是偏向于构建对真实世界的仿真模拟,比如刚才提到的Genie3。第三类是想要做智驾与机器人控制的,最具代表性的便是特斯拉从FSD到Optimus的战略构想。

Lecun的构想终究还是太理想。从这次的发布来看,蚂蚁灵波可以说是为数不多同时对两条路径都想去做探索的具身玩家。

而蚂蚁灵波两篇技术报告,其实分别对两条路线的探索意义给出了自己的建议。

首先,LingBot-World的引言是这样说的:

理解和模拟物理世界的人工智能长期被视作CV和机器学习的圣杯……而当前最先进的视频生成模型本质上做梦者(Dreamer)而不是模拟者(Simulator)。因为它本质是基于统计相关性的像素幻觉,而缺乏坚实的对物理法则的理解。

这段话很好理解:很多视频生成的“世界”只是造了一个样子,就像人做梦一样。梦里的世界只是和现实长得像,可能稍微把测试模型在上面跑一跑,牛顿的棺材板就按不住了。

蚂蚁灵波是如何分别在两条路线上实现这个任务的呢?

LingBot-World认为,如果要从视频生成转变成世界模型,这背后至少有三个瓶颈:高质量交互数据稀缺、标准扩散架构难以维持较长时间的叙事和结构的一致性、传统模式的计算开销巨大。

为此,团队做了三件事情:

第一,他们做了一个数据引擎:这个数据引擎的语义可以分层,数据可以扩展。因此,这个引擎可以将“纠缠”的表征分离开来,进而处理各种不同类型的数据。

蚂蚁灵波将他们的数据引擎分成了三个协同组件:数据获取、数据剖析、数据标注。

数据主要来自于真实世界视频、游戏视频以及利用虚幻引擎制作的合成渲染数据。再利用一套标注流程,将数据转化成可训练的资产。


第二,不仅数据分层了,他们将训练也同样分成了三个部分:

首先,先用通用视频来训练,即建设视频生成的基本能力(establish the general video prior),从而保证模型的高保真纹理等能力。

接下来引入MoE架构,注入世界知识和动作可控制性。这样模型就具备了基本的世界知识。

最后,加入实时推理架构。采用因果注意力适配和少步蒸馏,将双向扩散模型转换为高效的自回归系统。

而由于去掉了费时费力的双向扩散模型,整个系统的延迟低于1秒,成本潜力也得到了优化。


蚂蚁灵波在技术报告里放出来了一些demo。

Demo显示,LingBot-World 能力可以根据prompt给出丰富的一致性视角:


也可以通过视频探索来做场景的三维重建:


更重要的是:这是一个完全开源的模型。

所以它可以被用作非常多的用途,除了一些事件生成、三维建模、视角探索,也可以用来做智能体的模拟训练等等,或许未来还可以被探索出更加丰富的玩法。

1

给机器人的世界加入因果

而LingBot-VA的思路有所相似也有所不同。

相同的是,他们都对数据层面做了更多的探索,在模型方面也都引入了自回归的框架来改进模型的效率。但不同的是,蚂蚁灵波这次希望利用一种“统一”的方式来尝试解决目前VLA的局限性。

而这个“统一”的答案其实就是LingBot-VA,一个“自回归视频-动作世界模型”。


蚂蚁灵波说他们看了市面上的很多解决方案,但各有各的问题。

比如交互式神经模拟器、基于块或段的视频-动作扩散模型、用于数据或目标合成的离线视频生成器等等,但这些方法虽然吸引人,但难以实时反馈和记忆的问题,而且缺乏与物理现实中的因果关系。

所以说,他们想用自回归模型来解决这个问题。

思路其实并不复杂:

其实本质就是用一段视频去预测下一段视频的状态。而当模型知道下一段视频流中的状态时,便可以反推并解码成具体的执行动作。

这样一来,由于视频与动作之间存在明确的时间和逻辑关系,便自然就构成了很明确的物理现实世界中的因果关系。

而执行这套思路的方式,便是LingBot-VA的MoT(Mix-of-Transformer)架构。

如下图所示,在MoT架构中,一边是Transformer生成的视频流,另一边是Transformer生成的动作流。将两个"流"在序列中交错排列,便将高维视频 Token 与低维动作 Token 映射到了统一的潜空间里。


在具体操作上,LingBot-VA用了很多种方式,来实现“视频流”和“动作流”之间的“对齐”和“融合”。

比如,考虑到视频会存在冗余(毕竟现在机器人的操作都相对慢),所以会对具体的视频做稀疏化的处理。但动作流视频和视频流视频的需要的稀疏程度其实是各不相同的。那么与之对应的,每个视频帧对应的动作也会有相应的变化。如此才能保证高效生成视频的同时,还能保持较高频的控制能力。

再比如,由于视频流和动作流的模态特征存在差异,LingBot-VA也会调用单独的Transformer模块来进行单独的处理和对齐等工作。

而在噪声处理中,推理过程中的视频token的消耗数量则会远远多于动作的token,所以也引入了噪声增强策略,针对性地只对部分内容进行去噪——比如,动作预测就不需要完全去噪,而完全可以从部分噪声的视频中直接学习。

此外,LingBot-VA还会给模型加入注意力掩码机制,从而保证这套系统的预测是真的由自回归系统的预测得出的,而不是模型自己生成的。


聪明如你可以看到:这整套模型中不仅有多个Transformer架构的模型,还要将模型与模型之间进行对齐、解码,再用自回归模型去做预测和匹配。那计算压力陡增,必然会让模型的响应能力变得迟钝。

为了让这套系统可以更好地跑在真机上,LingBot-VA引入异步推理流水线将动作预测与电机执行并行化处理,从而实现高效控制。


这套模型的优势是,它其实是一个“闭环”的机制——因为它可以低成本且及时地获取真实世界的及时反馈。

只要机子在跑,那么机子的每一步预测都会不断和真实世界交互并修正幻觉的问题。理论上来说,只要跑的时间足够久,积累的数据足够多,那么模型就会不断变强。

而且由于这套系统的核心是自回归,所以必须依赖一个缓存系统,这让它也自然拥有了一定的记忆功能。而且实测下来,这套记忆能力表现还是不错的。

在计数和寻物两项记忆任务中,LingBot-VA都拿下了满分的成绩。


蚂蚁灵波拿这套系统跑了一些Demo测评,主要也是对标目前行业领先的π0.5模型,可以看到在六个项目的得分表现还不错。尤其在完成度指标和经典的“叠被子”测试场景中,有比较大的领先优势。


而且由于它采用了自回归的架构,再加上大规模多源数据预训练,所以对场景的学习能力非常强。

根据真机实测的数据,一个场景仅需 30~50 条演示数据即可完成适配。这对于VLA架构的大脑来说同样是不可想象的。

1

总结

蚂蚁灵波作为刚入局的具身新玩家,连续发四个技术工作,让这家新公司已然有了一点“生态”的样子了。

比如第一个发布的LingBot-Depth 模型,提供高精度的空间感知能力,让机器人真正"看清"物理世界;

VLA 是具身操作的主流路线,灵波打造LingBot-VLA 基模并开源开放,在 Depth 的赋能下实现精准的物理操作,且具备突出的跨本体、跨任务的泛化能力。

而LingBot-World则是构建了模拟的仿真空间,让它得以成为大脑的虚拟训练场;

LingBot-VA则探索了模型与环境交互新范式,降低模型对环境的学习成本,提高了环境反馈的效率,为机器人基础模型从“反应式控制”走向“可推演、可闭环的行动生成”提供了可验证的技术选项。

但无论如何他们却有着一些共同的技术审美:

他们都深度拥抱开源,坚信开源生态的价值,力图参与到开源的基础建设中,帮助更多的生态参与者走得更深更远;

他们都紧密围绕着行业发展的第一性需求展开,走理想主义与现实主义的一条平衡之道。可能其中并非所有的技术都是最酷的,但却都是实实在在处理今天一些实际的开源生态问题,丰富了开源具身工具库的生态位。

而以上都蚂蚁在具身生态的一个开始。而当更多的玩家走进开源,或许有一天具身开源生态真的能走出更大的共识。而世界模型也会发展出更多创造性的解法。


点个“爱心”,再走 吧

来源:https://www.163.com/dy/article/KKJG3DRK0511N33R.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

具身智能行业首个标准发布,产业风向定调新蓝海
科技数码
具身智能行业首个标准发布,产业风向定调新蓝海

3月27日,在北京国际科幻与未来产业博览会上,他山公司的人形机器人在展示原子动作数据采集平台精细操作场景。 本报记者 张武军摄 本报北京3月29日电 (记者刘温馨)工业和信息化部近日批准发布《YD

热心网友
03.30
宇树科技王兴兴:具身智能GPT实现还需两到三年
科技数码
宇树科技王兴兴:具身智能GPT实现还需两到三年

IT之家 3 月 29 日消息,宇树科技创始人、CEO 王兴兴亮相 2026 中国网络媒体论坛,发表《当机器人刷屏》主题演讲,IT之家附上演讲片段视频如下:王兴兴在演讲中表示,当下机器人、具身智能确

热心网友
03.29
宇树科技上海首店:5月底开业,体验人工智能体新浪潮
科技数码
宇树科技上海首店:5月底开业,体验人工智能体新浪潮

IT之家 3 月 29 日消息,据“上海静安”公众号今日发文,宇树科技具身智能体验馆亚洲首店,将于 5 月底落地上海市静安区南京西路商圈的久光百货,门店面积超 100 平方米,将展出品牌全线最新产品

热心网友
03.29
王兴与具身智能:揭秘陌生任务80-90%完成率的突破
科技数码
王兴与具身智能:揭秘陌生任务80-90%完成率的突破

快科技3月29日消息,今日,宇树科技创始人、CEO王兴兴亮相2026中国网络媒体论坛,以《当机器人刷屏》为题发表演讲。现场他提到具身智能还没有到临界点,并个人定义了具身智能的 "GPT时刻 "。带一台机

热心网友
03.29
VLA:世界模型的具身智能新范式,技术路径解析
科技数码
VLA:世界模型的具身智能新范式,技术路径解析

面对机器人不够聪明的现实窘况,不少创业公司开始押注世界模型这条技术路线。宇树科技创始人王兴兴在3月中旬的英伟达GTC大会上判断,在通往具身智能ChatGPT时刻的路径中,世界模型几乎“看不到天花板”

热心网友
03.28

最新APP

恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29
暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26

热门推荐

古尔曼:苹果地图若强制加广告必将激怒用户
网络安全
古尔曼:苹果地图若强制加广告必将激怒用户

IT之家 3 月 30 日消息,苹果正通过不断拓展服务业务收入来源来冲击更高营收,但把广告引入 Apple Maps,可能会带来反效果。在 3 月 29 日发布的最新一期“Power On”通讯中,

热心网友
03.30
UC浏览器网页权限管理指南:权限设置与安全管理
电脑教程
UC浏览器网页权限管理指南:权限设置与安全管理

UC浏览器 权限管理分五步:一、单站权限调整;二、批量审查授权;三、重置全部权限;四、为可信 设例外;五、系统级禁用浏览器敏感权限。如果您在使用UC浏览器时发现某些 能自动调用摄像

热心网友
03.30
水印宝提取视频教程:安全高效步骤详解
手机教程
水印宝提取视频教程:安全高效步骤详解

在当今数字化的时代,视频的使用场景越来越广泛,有时候我们可能需要从视频中提取某些内容,水印宝就是一款能帮助我们实现这一需求的工具。那么,水印宝怎么提取视频呢?首先,我们要确保已经在

热心网友
03.30
无畏契约源能行动枪皮获取攻略:轻松解锁方法分享
游戏攻略
无畏契约源能行动枪皮获取攻略:轻松解锁方法分享

在无畏契约的源能行动中,获取枪皮是玩家们关注的重点。以下为你介绍几种常见的获取途径。首先,参与游戏内的特定活动是获取枪皮的重要方式。源能行动通常会伴随一系列精彩活动,玩家通过完成活

热心网友
03.30
粉丝互斗真相:理智追星,别再让你家哥哥受伤了
娱乐
粉丝互斗真相:理智追星,别再让你家哥哥受伤了

最近,内娱出了个大乐子。一部叫《逐玉》的古装剧,火了,张凌赫在里面演了个大将军——“武安侯”谢征。按原著设定,这是个从尸山血海里爬出来的狠角色,大胤朝最年轻的“少年战神”。有观众一看,惊了。且看这位

热心网友
03.30