千寻智能 Spirit v1.5 登顶 RoboChallenge,开源策略背后的技术深意
在具身智能领域,近期迎来了一项重磅消息:千寻智能推出的 Spirit v1.5 模型,在权威评测平台 RoboChallenge 的最新排行榜上成功斩获全球第一,将 Pi 0.5 甩在身后。这意味着什么?简而言之,在端到端具身智能这条赛道上,Spirit v1.5 已通过公开的 benchmark 验证了自身实力。

目前,Spirit v1.5 的完整模型权重、部分已公开的微调任务权重,以及配套的推理与部署示例均已正式开源。其余内容将按照计划分阶段逐步开放。作为一款面向现实世界任务的端到端具身智能基础模型,Spirit v1.5 致力于在统一架构下实现三大核心能力:泛化性——能够适应不同任务与机器人本体;稳定性——可长时间连续执行复杂操作;准确性——对操作目标与动作结果保持高精度控制。
关注模型设计的读者可能会注意到,Spirit v1.5 采用了 Vision-Language-Action(VLA)一体化建模范式。视觉感知、语言理解、动作生成三者深度融合在同一个决策通路中,从而避免了传统多模块级联带来的信息衰减问题,长周期任务的鲁棒性也因此显著提升。换言之,并非简单拼合几个模块,而是从一开始就联合训练,效果自然更加连贯。
而它最大的突破,其实隐藏于训练策略之中。千寻智能的技术博客明确表示:他们摒弃了对高度筛选、高度可控的“理想化”演示数据的依赖。这类脚本化数据虽然能帮助模型快速收敛,但会严重削弱其应对开放世界动态场景的能力。换句话说,如果只让模型在完美环境下练习,一旦进入真实世界遇到遮挡、干扰便会束手无策,那么再快的收敛也毫无意义。
因此,Spirit v1.5 在预训练阶段引入了开放式、非脚本化的数据采集机制。数据收集不拘泥于预设任务流程,而是以“达成有意义的实际目标”为根本导向,允许操作过程自然融合多个子任务与底层技能。这样一来,模型在训练初期就能接触到遮挡干扰、失败重试、任务无缝衔接等真实挑战。打个比方,不是让运动员只练标准动作,而是直接将其投入实战赛场进行磨砺。
相关的消融研究也印证了这一点:在同等数据量下,采用多样化数据预训练的模型,面对全新任务时迁移效率更高;达成相同性能指标所需的计算开销大幅降低。这也是 Spirit v1.5 能在 RoboChallenge 平台上,面对多形态机器人构型和未见过的任务时,展现出卓越泛化与稳定执行能力的根本原因。
顺便介绍一下 RoboChallenge。该平台是 2025 年正式启动的标准化评测体系,由 Dexmal、Hugging Face 等国际知名机构联合发起,专注于评估具身智能模型在不同硬件平台间的通用性与可迁移性。作为当前最具代表性的具身智能 benchmark 之一,它强调真实机器人实体的闭环执行能力,评测维度涵盖复杂语义指令解析、多阶段操作规划、跨环境行为一致性等关键指标。能够在该平台上夺得第一,含金量自然不言而喻。
