一月十二日,千寻智能正式开源其自主研发的VLA基础模型Spirit v1.5。就在前一天,该模型在全球具身智能模型评测平台RoboChallenge上脱颖而出,以综合评测成绩斩获榜首,超越了长期稳居该榜单的Pi0.5模型。
RoboChallenge数据显示,千寻智能自研的具身智能模型Spirit v1.5在评测中取得了综合排名第一的佳绩,在任务得分与成功率两个维度上均超过了Pi0.5。
为验证榜单成绩确实源于自研模型且真实有效,千寻智能同步开源了Spirit v1.5的基础模型权重、推理代码以及使用样例,以此接受公众与研究社区的独立检验。通过这一方式,研究者不仅可以复现榜单评测结果,更能以Spirit v1.5作为具身智能的基础模型,在此基础上展开进一步的探索与创新。
公开资料显示,RoboChallenge是2025年新成立的标准化评测体系,由Dexmal与Hugging Face等机构联合发起,专注于对具身智能模型进行跨平台能力验证。其评测任务覆盖复杂指令理解、多步骤操作规划以及跨场景执行稳定性等多个维度。
从评测结果来看,Spirit v1.5在多项任务中保持较高成功率,尤其在多任务连续执行、复杂指令拆解以及跨构型迁移等维度表现稳健。截至最新评测周期,其综合得分超越了包括Pi 0.5在内的此前领先模型,位居榜单首位。
在模型架构上,Spirit v1.5采用Vision-Language-Action(VLA)统一建模框架,将视觉感知、语言理解与动作生成整合在同一决策流程中,减少了多模块串联带来的信息损耗,并提升了长程任务中的整体稳定性。
在训练方法上,Spirit v1.5的一个核心特点是它不依赖高度精选的“干净”演示数据。千寻智能在技术博客中指出,那些在过度脚本化、受控环境下采集的数据,虽然有利于模型快速收敛,却会限制其在真实世界中的泛化能力。
因此,Spirit v1.5在预训练阶段引入了开放式、多样化的数据采集模式。数据采集不再严格限定任务脚本,而是以“完成有意义目标”为导向,允许操作过程中自然串联多个子任务与原子技能。这种方式让模型在训练阶段接触到更接近真实世界的复杂性,包括遮挡、失败恢复以及任务之间的自然过渡。
相关消融实验显示,在相同数据规模下,基于多样化数据预训练的模型,在新任务上的迁移效率明显高于基于传统演示数据训练的模型。为达到相同性能所需的计算资源也显著减少。这一结果也解释了Spirit v1.5在RoboChallenge多构型、未见任务评测中的稳定表现。
千寻智能(Spirit AI)成立于2024年,总部位于杭州,由前追觅机器人联合创始人兼CTO韩锋涛发起创立,专注于具身智能机器人及通用人形机器人技术的研发与场景落地。其核心技术涵盖视觉语言模型ViLa、部件约束模型CoPa以及世界领先的运动控制系统,致力于打造通用智能机器人平台。
2025年7月,千寻智能完成了近6亿元PreA+轮融资,由京东领投,中国互联网投资基金、浙江省科创母基金、华泰紫金、复星锐正等知名机构跟投。千寻智能成立半年内相继完成种子轮、天使轮融资,累计融资金额近2亿元,其背后的资本网络横跨“中东系”“宁德系”“小米系”等,投资方包括弘晖基金、达晨创投、千乘资本等知名机构。
