12月8日上午消息,新浪科技获悉,京东云近期对其JoyBuilder模型开发平台进行了全面升级。该平台现已成功支持业内顶尖模型GR00T N1.5的千卡训练,成为业界首个支持具身智能千卡级LeRobot开源训练框架的AI开发平台。经平台优化后,训练效率较开源社区版本提升了3.5倍。
通过软硬件的深度协同优化与算法层面的突破,平台大幅提升了模型训练的效率和稳定性。在超过1亿数据量的千卡训练任务中,整体训练时间从原先的15小时大幅缩短至仅22分钟,有力推动了具身智能迈向规模化落地应用。
据介绍,围绕具身智能模型的训练需求,京东云AI+Infra及相关技术团队基于JoyBuilder模型研发平台,展开了全栈性能优化:
在具身数据链路优化方面,平台重构了具身数据预处理与加载流程,实现了CPU数据处理与GPU计算的异步执行,减少了等待耗时。针对海量小数据文件,自研的高性能并行文件系统——云海JPFS(Jingdong Parallel File System)通过分布式元数据管理与智能预取技术,支持高并发访问。在1024卡训练集群上,读取带宽超过400GB/s,有效保障数据持续高速供给。
在具身模型计算优化方面,针对主流开源VLA(视觉-语言-动作)模型的计算特点,平台从注意力层(Attention)、Token裁剪和训练后量化等多个维度进行了极致优化,全方位提升了模型的训练效率。
在具身模型基础设施方面:平台通过搭建3.2T RDMA后端网络,并基于多通道优化、拓扑感知调度与智能震荡抑制等技术,保障了千卡间集合通信的高吞吐与低延迟,同时在单点故障时能快速恢复,支持长周期训练的稳定运行。此外,基于云原生的AI数据湖,平台优化了数据调度与流水线,提升了端到端的处理效率。
此次京东云JoyBuilder模型开发平台的升级,基于其在全链路数据处理、模型计算效率和AI基础设施等方面的全面优化,能够支持当前业界主流的LeRobot训练数据最新协议,并成为业内首家支持具身模型千卡级开源训练框架的AI开发平台。
责任编辑:杨曦
