蚂蚁集团旗下的具身智能公司灵波科技,本周接连开源了四个大型模型。
1月30日,灵波科技正式开源了其具身世界模型LingBot-VA。该模型基于自回归视频-动作世界建模框架,巧妙地将大规模视频生成模型与机器人控制深度融合。它的独特之处在于,模型在生成“下一步世界状态”预测的同时,能够直接推演并输出对应的动作序列,从而让机器人实现如同人类一般的“边推演、边行动”能力。
而在此之前的1月27日至29日,灵波科技已经相继开源了高精度空间感知模型 LingBot-Depth、具身大模型 LingBot-VLA 以及世界模型 LingBot-World。
其中,LingBot-Depth模型是与奥比中光合作研发,主要致力于攻克机器人视觉中的棘手难题,例如如何让机器人精准抓取透明或反光物体,从而更清晰地“看清”和理解我们所在的物理世界。LingBot-VLA则是蚂蚁开源的首款具身智能基座模型,它实现了跨本体、跨任务的强大泛化能力,推动“一脑多机”的构想走向规模化落地,有望缓解具身智能模型在实际应用中面临的泛化性挑战。至于LingBot-World,这是一款专为具身智能、自动驾驶及游戏开发等场景设计的高保真、可交互虚拟训练环境模型。在多项关键技术指标上,蚂蚁宣称LingBot-World的表现可对标行业标杆如Google Genie 3。

在一周内接连发布四款模型的背后,与阿里巴巴集团在大模型领域坚持的开源策略一脉相承,蚂蚁也正试图在具身智能领域,通过开源方式来构建行业影响力。成立灵波科技之初,蚂蚁便表示要打造行业领先的机器人产品;如今,这一愿景已进一步扩展至具身智能的基座模型领域。
值得关注的是,除了模型权重的开源,蚂蚁在开放LingBot-VLA时,还同步开放了包含数据处理、高效微调及自动化评估在内的全套代码库。这一举措有望显著降低开发者的模型训练周期和成本,同时降低他们在商业化落地过程中面临的算力与时间门槛。
“具身智能要想实现大规模应用,离不开高效的具身基座模型,这直接决定了技术是否可用以及是否用得起。我们希望通过开源,加速具身智能技术的迭代与规模化应用,助力通用人工智能更快到来。”在宣布LingBot-VLA开源的同时,蚂蚁灵波科技CEO朱兴如表达了如是看法。
目前,具身智能技术仍处在从实验室走向千行百业的关键爬坡期。一方面,蚂蚁等大厂的通用人工智能战略向物理世界延伸,或将加速这一进程;另一方面,这也意味着,未来具身智能的产业竞争,将从“技术卡位”进一步延伸至全栈能力与生态协同的综合建设之中。
