千寻智能开源Spirit 1.5大模型：核心代码与完整架构详解

时间：2026-01-12 13:13

1月12日，千寻智能正式开源自研VLA基础模型Spirit v1 5，就在前一天，该模型在全球具身智能模型评测平台RoboChallenge上，综合评测斩获第一，超越了已经霸榜RoboChallen

一月十二日，千寻智能正式开源其自主研发的VLA基础模型Spirit v1.5。就在前一天，该模型在全球具身智能模型评测平台RoboChallenge上脱颖而出，以综合评测成绩斩获榜首，超越了长期稳居该榜单的Pi0.5模型。

RoboChallenge数据显示，千寻智能自研的具身智能模型Spirit v1.5在评测中取得了综合排名第一的佳绩，在任务得分与成功率两个维度上均超过了Pi0.5。

为验证榜单成绩确实源于自研模型且真实有效，千寻智能同步开源了Spirit v1.5的基础模型权重、推理代码以及使用样例，以此接受公众与研究社区的独立检验。通过这一方式，研究者不仅可以复现榜单评测结果，更能以Spirit v1.5作为具身智能的基础模型，在此基础上展开进一步的探索与创新。

公开资料显示，RoboChallenge是2025年新成立的标准化评测体系，由Dexmal与Hugging Face等机构联合发起，专注于对具身智能模型进行跨平台能力验证。其评测任务覆盖复杂指令理解、多步骤操作规划以及跨场景执行稳定性等多个维度。

从评测结果来看，Spirit v1.5在多项任务中保持较高成功率，尤其在多任务连续执行、复杂指令拆解以及跨构型迁移等维度表现稳健。截至最新评测周期，其综合得分超越了包括Pi 0.5在内的此前领先模型，位居榜单首位。

在模型架构上，Spirit v1.5采用Vision-Language-Action（VLA）统一建模框架，将视觉感知、语言理解与动作生成整合在同一决策流程中，减少了多模块串联带来的信息损耗，并提升了长程任务中的整体稳定性。

在训练方法上，Spirit v1.5的一个核心特点是它不依赖高度精选的“干净”演示数据。千寻智能在技术博客中指出，那些在过度脚本化、受控环境下采集的数据，虽然有利于模型快速收敛，却会限制其在真实世界中的泛化能力。

因此，Spirit v1.5在预训练阶段引入了开放式、多样化的数据采集模式。数据采集不再严格限定任务脚本，而是以“完成有意义目标”为导向，允许操作过程中自然串联多个子任务与原子技能。这种方式让模型在训练阶段接触到更接近真实世界的复杂性，包括遮挡、失败恢复以及任务之间的自然过渡。

相关消融实验显示，在相同数据规模下，基于多样化数据预训练的模型，在新任务上的迁移效率明显高于基于传统演示数据训练的模型。为达到相同性能所需的计算资源也显著减少。这一结果也解释了Spirit v1.5在RoboChallenge多构型、未见任务评测中的稳定表现。

千寻智能（Spirit AI）成立于2024年，总部位于杭州，由前追觅机器人联合创始人兼CTO韩锋涛发起创立，专注于具身智能机器人及通用人形机器人技术的研发与场景落地。其核心技术涵盖视觉语言模型ViLa、部件约束模型CoPa以及世界领先的运动控制系统，致力于打造通用智能机器人平台。

2025年7月，千寻智能完成了近6亿元PreA+轮融资，由京东领投，中国互联网投资基金、浙江省科创母基金、华泰紫金、复星锐正等知名机构跟投。千寻智能成立半年内相继完成种子轮、天使轮融资，累计融资金额近2亿元，其背后的资本网络横跨“中东系”“宁德系”“小米系”等，投资方包括弘晖基金、达晨创投、千乘资本等知名机构。

来源：https://www.163.com/dy/article/KJ2O1DRH053469RG.html