12月8日上午,新浪科技发布最新消息:京东云JoyBuilder模型开发平台近日迎来全面升级,其成功支撑了业界顶尖模型GR00T N1.5的千卡训练任务,由此成为业内首家支持具身智能千卡级LeRobot开源训练框架的AI开发平台。此次升级大幅提升了训练效率,较开源社区版提升高达3.5倍。
这一显著提升,源于平台在软硬件深度调优和算法层面的重大突破。它不仅大幅增强了模型训练的效率和稳定性,更是在处理海量数据时展现了惊人的速度。例如,针对超过1亿条数据的千卡训练任务,总耗时从原先的15小时被压缩至仅22分钟,有力推动了具身智能迈向规模化、商业化落地的新阶段。
据介绍,围绕具身智能模型的训练需求,京东云AI+Infra及相关团队以JoyBuilder模型研发平台为核心,进行了全方位、全栈式的优化:
在具身数据链路优化方面,平台通过重构数据预处理与加载流程,实现了CPU数据处理与GPU计算的异步执行,有效减少了设备空闲等待时间。面对海量的具身小数据文件,京东云自研的高性能并行文件系统“云海JPFS”发挥了关键作用。它通过分布式元数据管理与智能预取技术,支持高并发访问。在1024卡的大型集群上,读取带宽超过每秒400GB,保障了数据持续、高速、稳定地供给计算单元。
在具身模型计算优化方面,平台针对当前主流的开源VLA(视觉-语言-动作)模型的计算特点,从注意力机制层、Token裁剪、训练后量化等多个关键维度进行了极致优化,全方位提升了模型的计算与训练效率。在具身模型基础设施层面,平台通过搭建3.2T RDMA高速后端网络,并基于多通道优化、拓扑感知调度与智能震荡抑制等技术,确保了千卡间集合通信的高吞吐量与低延迟。即便在遭遇单点故障时,系统也能快速恢复,有力支撑了长周期训练任务的稳定运行。同时,基于云原生的AI数据湖技术,平台进一步优化了数据调度与流水线,提升了端到端的整体处理效率。
此外,京东云JoyBuilder模型开发平台凭借在全链路数据处理、模型计算效率和AI基础设施等层面的全面优化,现已能够支持业界当前最主流的LeRobot训练数据协议。这一定位,使其稳居行业领先地位,成为首家支持具身模型千卡级开源训练框架的AI开发平台。
责任编辑:杨赞
