首页 游戏 软件 资讯 排行榜 专题
首页
AI
蚂蚁开源LingBot-VLA真机训练代码

蚂蚁开源LingBot-VLA真机训练代码

热心网友
82
转载
2026-05-14

最近,具身智能领域有个值得关注的新动向。蚂蚁集团旗下的灵波科技,宣布全面开源其具身基座模型LingBot-VLA的真机后训练工具链。这意味着,开发团队现在可以基于这变钱成的工具,利用自己的数据,快速将LingBot-VLA适配到自家的机器人和具体任务上。要知道,这距离他们今年1月开源模型权重才过去几个月,可以说是朝着工程化落地,又迈出了非常扎实的一步。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

蚂蚁灵波开源LingBot-VLA真机后训练代码

真机部署的最大痛点:不是没有模型,而是用不起来

眼下,开源模型在具身智能领域并不少见,但“有模型”和“用起来”之间,往往隔着一道巨大的工程鸿沟。各家机器人在机械臂构型、末端执行器、传感器配置和控制接口上千差万别,想把一个通用模型部署到自己的真机上,免不了一番大动干戈的定制化改造。这套从数据到部署的完整工程链路,过去往往是各家的核心“秘籍”,很少对外公开。

灵波这次开源的工具链,瞄准的正是这个核心痛点。它系统性地覆盖了真机适配的四个关键环节:

  • 数据处理模块:能处理多源LeRobot数据的合并,统一关节维度映射,解决不同机器人数据格式“方言”不通的问题。
  • 真机训练配置:提供了针对真机场景优化过的训练参数与流程,算是开箱即用的最佳实践。
  • 离线评测工具:让开发者能在实际上机前,先快速验证模型的表现,心里更有底。
  • 真机部署模块:支持编译加速,目标很直接——降低推理延迟,让机器人反应更快。

工具链还贴心地提供了含深度信息与不含深度信息两个版本,方便开发团队根据手头的硬件条件灵活选择。

2万小时真机数据打底,9种机器人构型通吃

LingBot-VLA的底气,来自一个在业内都称得上“豪华”的数据基础——大约20000小时的真实机器人操作数据。这些数据可不是仿真生成的,而是实打实通过真机遥操作采集而来,覆盖了包括AgileX Cobot Magic、Galaxea R1Pro/R1Lite、AgiBot G1等在内的9种主流双臂机器人构型。

数据的处理方式也颇具匠心。研究团队设计了一套半自动化的标注流水线:先由人工标注员按原子动作对多视角视频进行切分,然后借助Qwen3-VL这类视觉大模型,生成精确的自然语言指令描述,最终形成(多视角图像,语言指令,动作序列)这样的标准三元组。可以说,这个模型从“学走路”开始,见识的就是各种真实的机械臂运动方式、不同的摄像头视角和夹爪特性,这为它日后能适应不同机器人(跨本体泛化)打下了坚实的基础。

更有价值的是,团队首次在真实机器人领域,系统性地验证了VLA模型的“缩放定律”(Scaling Law)。实验将预训练数据量从3000小时逐步增加到20000小时,结果清晰显示,模型性能随着数据量增加持续提升,而且在20000小时这个量级上,性能增长仍未看到天花板。这为行业后续投入数据建设提供了有力的数据支撑。

150条示教数据就够了,训练效率最高提升2.8倍

对于一线开发者来说,LingBot-VLA最诱人的数字,可能就是“150条”。

实验证明,仅仅需要150条针对新任务的演示数据,LingBot-VLA就能实现高质量的任务迁移。在Agibot G1平台上的测试更为惊人:仅用80条示范数据进行后训练,其表现就已经超越了使用130条完整数据训练的π0.5模型。并且,随着数据量增加,LingBot-VLA的优势还在进一步扩大。

在训练效率上,提升同样显著。得益于底层代码库对FSDP分布式训练、混合精度、算子融合等技术的深度优化,LingBot-VLA在8卡GPU配置下,实现了单卡每秒261个样本的吞吐量。这个效率,达到了StarVLA、OpenPI等主流框架的1.5到2.8倍。以往可能需要一个月才能跑完的实验迭代周期,现在或许一到两周就能完成,这无疑大大加快了研发进度。

真机评测全面超越π0.5,已与多家厂商完成适配

模型好不好,最终还得看实测表现。在权威的评测中,LingBot-VLA已经交出了一份不错的答卷。

在上海交通大学开源的GM-100真机基准测试(包含100项真实操作任务)中,LingBot-VLA在AgileX、Agibot G1、Galaxea R1Pro三个真实机器人平台上,跨本体泛化的平均成功率达到了17.30%(引入深度信息后),相比π0.5的13.0%提升了4.3个百分点;在衡量任务完成进度的得分上,达到35.41%,比π0.5提升了7.76%。

在模拟复杂现实环境的RoboTwin 2.0仿真基准测试中,面对光照变化、杂物干扰、背景波动等高度随机化挑战,LingBot-VLA在清洁场景的成功率达到88.56%,在随机场景下也保持了85.34%的成功率,操作成功率比π0.5提升了近10个百分点。

目前,LingBot-VLA已经与星海图、松灵、乐聚等多家机器人厂商完成了多机型适配验证,这实际证明了该模型在不同机械构型机器人上具备可靠的跨本体迁移能力。

代码已全面开源

目前,LingBot-VLA的完整代码库已在GitHub上开源,模型权重也同步发布在Hugging Face和ModelScope平台。开源的内容非常全面,涵盖了模型权重、数据处理工具、高效微调代码、离线评测系统、部署方案以及详细的技术报告。

这一系列动作的目标很明确:推动具身智能技术栈的标准化,降低工程化门槛。从20000小时真机数据预训练打下的坚实基础,到仅需150条示教数据就能高效迁移的实用性,再到1.5-2.8倍的训练速度提升,灵波科技通过这套开源工具链,正在向业界证明,具身智能的规模化落地,不再仅仅是实验室里的美好蓝图,而是一条已经有清晰脚印、可以稳步前行的工程化路径。

来源:https://www.elecfans.com/d/7930831.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

TurnSense 语音判停模型开源 47M 参数性能超越 7B
业界动态
TurnSense 语音判停模型开源 47M 参数性能超越 7B

你的语音助手又抢话了。 用户刚说“我想订那个……就是上次去过的那家……”,话还没说完,AI已经兴冲冲地回了一句“好的,请问您想订什么?” “帮我查一下那个……”——话音未落,AI拿着半句话就开始生成回复了。 更让人哭笑不得的是:用户咳嗽一声,AI开始正经回答一个不存在的问题;用户清了清嗓子,AI说“

热心网友
05.13
OpenAI 开源 SimpleQA 新基准,专治大模型“胡言乱语”
AI
OpenAI 开源 SimpleQA 新基准,专治大模型“胡言乱语”

OpenAI 开源 SimpleQA 新基准,专治大模型“胡言乱语” 当地时间10月30日,OpenAI放出了一个新动作:开源一个名为SimpleQA的全新基准测试工具。这个工具的核心使命很明确——给语言模型“考考基本功”,精准衡量它们回答简短事实性问题的能力。这相当于为AI的“记忆力”和“严谨性”

热心网友
04.30
千问正式开源FlashQLA 可减少训推过程注意力层的计算开销
科技数码
千问正式开源FlashQLA 可减少训推过程注意力层的计算开销

千问开源FlashQLA:为线性注意力算子注入“硬核”效率 近日,AI开源社区迎来一则重磅消息。4月29日,千问大模型团队正式开源了FlashQLA——一个基于TileLang实现的高性能线性注意力算子库。这可不是一个简单的代码发布,其背后指向一个明确的行业痛点:随着模型参数规模与序列长度的不断攀升

热心网友
04.29
全面开源!商汤日日新SenseNova U1发布,首创连续性图文创作输出
科技数码
全面开源!商汤日日新SenseNova U1发布,首创连续性图文创作输出

商汤科技刚刚正式发布并开源日日新SenseNova U1 系列原生理解生成统一模型 商汤科技这次的动作,可以说是为多模态AI领域投下了一枚“深水冲击波”。他们正式开源了日日新SenseNova U1系列模型,而它的核心,在于一个根本性的架构革新。 这个模型基于商汤今年三月自主研发的NEO-unify

热心网友
04.29
DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源
AI
DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源

DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源 北京时间今日凌晨,AI领域又迎来一个重磅消息。DeepSeek正式开源了其全新的视觉多模态模型 Janus-Pro-7B。这可不是普通的更新,从已披露的测试结果看,它在GenEval和DPG-Benc

热心网友
04.28

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

2026年USDT交易软件排行榜:安全可靠的平台推荐与选择指南
web3.0
2026年USDT交易软件排行榜:安全可靠的平台推荐与选择指南

本文介绍了2026年主流的USDT交易软件,重点分析了币安、欧易和火币三大平台的特点与优势。内容涵盖平台安全性、交易功能、用户体验及费用结构,旨在为不同需求的用户提供选择参考。文中强调选择平台时应综合考虑资产安全、操作便捷性和交易成本,并提醒注意风险管理与合规操作。

热心网友
05.14
2026年USDT交易软件推荐:十大安全靠谱平台深度评测
web3.0
2026年USDT交易软件推荐:十大安全靠谱平台深度评测

本文介绍了USDT交易的基本概念与主流平台选择。USDT作为稳定币,其交易主要通过加密货币交易所进行。选择平台时需综合考虑安全性、流动性、手续费和用户体验。文中列举了当前市场认可度较高的几类交易平台,并提醒用户注意资产安全与合规操作,建议根据自身需求谨慎选择。

热心网友
05.14
哥本哈根大学新研究探索AI推荐系统如何消除偏见实现公平
AI
哥本哈根大学新研究探索AI推荐系统如何消除偏见实现公平

哥本哈根大学计算机科学系于2026年3月发布了一项具有里程碑意义的研究(论文编号arXiv:2603 12935v1),揭示了当前主流AI推荐系统可能潜藏的社会偏见风险。这项研究同时指出,一种高效且低成本的解决方案——提示工程,或许能成为破解这一难题的关键。 当您使用求职平台或新闻资讯应用时,背后的

热心网友
05.14
港科大团队创新图像修复技术:仅需千张训练图,视频生成模型效果媲美百万数据
AI
港科大团队创新图像修复技术:仅需千张训练图,视频生成模型效果媲美百万数据

照片模糊了、雨滴遮挡了画面、夜晚拍摄噪点过多……这些常见的图像质量问题,往往让人束手无策。传统的解决方案,就像请来一群专科医生:去模糊、去噪点、去雨滴,各有各的专长,但每个“医生”都需要海量的“临床经验”——动辄数百万张训练图片,才能达到可用的修复水平。 然而,一项由香港科技大学、哈尔滨工业大学深圳

热心网友
05.14
UBC与Vector研究院攻克AI资源管理难题 机器人低成本高效运行指南
AI
UBC与Vector研究院攻克AI资源管理难题 机器人低成本高效运行指南

这项由英属哥伦比亚大学(UBC)与Vector人工智能研究院联合主导的前沿研究,于2026年3月以预印本论文(arXiv:2603 12634v1)形式发布。研究团队创新性地提出了“预算感知价值树搜索”(Budget-Aware Value Tree Search,简称BA VT)框架,旨在攻克一个

热心网友
05.14