首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
Jim Fan力荐!千寻智能Spirit v1.5全球首发开源

Jim Fan力荐!千寻智能Spirit v1.5全球首发开源

热心网友
58
转载
2026-01-12



编辑|+0

提到具身智能,你首先会想到什么?

是宇树在春晚惊艳亮相的「转手绢」、特斯拉 Optimus 的「金色传说」、真到被怀疑真假的小鹏,还是 2025 年各家竞相上演的「炫技大赏」,空翻、家务、热舞、打拳,无所不能?



已经过去的 2025 年,无疑是具身智能大爆发的一年。

热闹属于硬件,但具身智能还有另一个关键赛道:具身智能与机器人基础模型,即具身智能的「大脑」。它们定义了具身智能的智力天花板,也长期主导了行业对「通用性」的解释权。

在这个赛道,过去两年的叙事主线几乎被 Pi、Google、Figure 等海外团队主导。但在 2026 年伊始,格局发生了变化。

1 月 12 号,千寻智能(Spirit AI)开源了自研 VLA 基础模型Spirit v1.5,该模型在第三方机器人模型评测组织RoboChallenge 的 Table30 榜单上位列第一,超过了之前最强模型 Pi0.5。



千寻开源了Spirit v1.5的基模权重、推理代码以及使用样例,接受公众检验,也方便社区在 Spirit v1.5 的基础上创新。

Code: https://github.com/Spirit-AI-Team/spirit-v1.5Model: https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5Blog:https://www.spirit-ai.com/en/blog/spirit-v1-5



Spirit v1.5 vs Pi0.5 视频对比。上:Spirit v1.5,下:Pi0.5。

这一手「硬核登顶+开源共享」的组合拳,引发了海外 AI 社区的即时关注,甚至引来了英伟达具身智能负责人 Jim Fan(范麟熙)的点赞、Hugging Face 的最新祝贺,以及多位海外大 V 的转发。







这不再是一次简单的榜单轮换。它意味着,在具身智能这个未来的核心战场上,中国团队终于结束了「跟随模式」,正式拿到了「全球第一梯队」的入场券。

Spirit v1.5 为什么能赢 Pi0.5?

要回答这个问题,我们必须先看一眼「竞技场」。

RoboChallenge 是由 Dexmal、Hugging Face 和智源研究院等机构发起的全球首个大规模真机评测平台。与常见的仿真环境跑分不同,RoboChallenge 的核心在于物理世界的真机实测

平台建立了一套名为「Table30」的任务集,包含设定在桌面环境中的 30 个多样化操作任务。这些任务不仅涵盖插花、制作三明治、插入网线等日常技能,还被特意设计用来挑战模型能力的各个维度:包括精确的 3D 定位、遮挡处理、时间依赖性以及多阶段长序列任务。

在该体系下,Spirit v1.5 在多构型机器人(包括 Franka、Arx5、UR5 及双臂 ALOHA 系统)上均进行了评测。截至 2026 年 1 月 12 日的评估显示,Spirit v1.5 在该基准测试上超越了 Pi0.5 等之前的全球领先开源模型,取得了当前最优的性能。



Spirit v1.5 vs Pi0.5 视频对比。上:Spirit v1.5,下:Pi0.5。

Spirit v1.5 的胜出并非偶然,其核心原因在于对机器人预训练数据范式的根本性重构。

摆脱「干净数据」的诅咒,

转向「物理常识」的习得

传统的具身模型,大多基于如 Open X-Embodiment (OXE)、Agibot 和 RoboCOIN 等数据集进行训练。这些数据集虽然规模庞大,但主要由高度精选的、即所谓的「干净」数据组成。

在这种模式下,为了最大化采集成功率,研究人员往往像电影导演一样精心设计场景:物体被放置在可预测、易于触及的位置,动作被简化或脚本化。这种「完美」的数据虽然为模型提供了一个稳定的起点,但却产生了一个致命的副作用:经验的零散孤岛。

如果在训练中,「擦桌子」的数据集永远只包含桌子和标准的擦拭动作,模型就永远学不会如何在抹布打滑后恢复,或者如何处理桌面上意料之外的杂物。这种过度「净化」的数据限制了机器人的泛化能力,一旦面对开放世界的不可预测性,模型极易失效。

相比之下,Spirit v1.5 采用了「开放式、目标驱动」的数据采集策略。其核心理念是摒弃书面脚本,只给操作员一个模糊的高层目标(如「清理厨房」),允许其即兴发挥。

在 RoboChallenge 的 Table30 测试中,Spirit v1.5 展现出的跨场景泛化能力主要得益于以下几点:

构建连续的技能流形

传统数据制造了任务间的割裂,而 Spirit v1.5 的数据采集员可能会先拿起食物容器,发现碎屑后开始擦拭,接着整理餐具。这种连续的会话将多个微技能自然串联,涵盖了抓取、扭转、插入和复杂的双手协调。

这意味着模型不再是机械地重复单一动作,而是学习到了动作与动作之间的过渡与衔接。如同案例所示:无论是给假人模型化妆,还是组装复杂的乐高结构,模型掌握的是一个原子技能谱系,而非孤立的动作片段。

内化的纠错与恢复能力

这是 Spirit v1.5 区别于传统模型的关键。由于训练数据通过「将采集员派往现实环境中的随机地点」获得,包含了海量的物体交互和环境转换,模型见识过各种失败与混乱。因此,Spirit v1.5 习得了类似人类的「物理常识」。

当面对复杂操作中的干扰、物体打滑或光线突变时,模型展现出了惊人的韧性,它学会了在动作执行受阻时如何进行动态调整和恢复,而不是像脚本机器那样直接死机。



多样化采集数据示例。上:采集员通过末端执行器操作给假人模型化妆。下:采集员组装复杂的乐高结构。两个案例都展示了多样化原子技能的连续流,包括抓取、扭转、插入和复杂的双手协调。

模型不是「更大」,

而是「更对」

技术报告中的消融实验进一步证实,Spirit v1.5 的优势源于更高效的数据利用策略,而非盲目的算力扩张。

实验建立了两组模型进行对比:A 组使用精选演示数据,B 组使用开放式多样化数据,且保持两组的总数据量完全相同。结果揭示了显著的「多样性增益」:

收敛速度与迁移效率:在针对全新任务微调时,使用多样化采集训练的模型(Spirit 策略)达到相同性能基线所需的迭代次数比基线模型少了 40%。这表明,任务的多样性比单任务的演示数量更为关键。



多样化采集预训练的模型比干净数据采集训练的模型具有更快的收敛速度和更好的验证误差。

验证误差的持续下降:研究还发现,随着多样化数据规模的扩大,模型在新任务上的验证误差呈持续下降趋势。这证明模型正在有效地从现实世界日益增加的内在多样性中汲取养分,形成了一种通用的策略基础。



不同数据规模下的模型效果。扩大多样化采集的数据规模可以持续降低模型的验证误差。

既是「榜单杀手」,

也是「工程利器」

除了在学术榜单上领先,Spirit v1.5 在工程落地层面也解决了困扰行业已久的可扩展性的难题。

传统的「干净数据」采集需要工程师团队设计任务、编写详细指南并严格筛选数据,这种工作流程极大地限制了数据采集的体量和扩展性。

Spirit v1.5 采用的非结构化采集方式,允许操作员在只设定高层目标(如「清理厨房」)的前提下即兴发挥。这种范式转变带来了巨大的工程效益:

采集效率提升:数据显示,人均有效采集时长增加了200%。因为操作员不再是重复数百次枯燥的机械动作,而是像玩游戏一样在物理世界中互动,保持了极高的投入度。专家依赖降低:这种流程将对算法专家干预的需求削减了60%。这意味着,大规模扩展数据采集规模不再受限于稀缺的专家资源,管理成本不再线性增加。

目前,Spirit v1.5 的基模权重、推理代码以及使用样例已全部开源,供研究人员复现和探索。这不仅证明了其作为「实战派」模型的底气,也为通用机器人从实验室走向真实的家庭和产线环境铺平了道路。

中国开源力量的突破性进展

如果说技术上的超越是 Spirit v1.5 的「硬实力」,那么选择全量开源则是其更具产业价值的决定。

回顾过去两年,从 Qwen、DeepSeek 到 Kimi、GLM 等,中国的大模型团队已经证明了这一点:开源模型不仅能追平闭源模型的性能,更能成为推动全球技术平权的重要基础设施。这些来自中国的开源力量,实际上已经成为了许多海外开发者构建应用的首选基座。

不可否认,「开源共建」也已逐渐成为具身智能领域的行业共识,但拼图尚未完整。

高性能的机器人基础模型(如 Google RT 系列或 Pi)大多处于闭源或半闭源状态。开发者往往面临「两难」:要么使用性能较弱的旧模型,要么依赖大厂的 API,不仅成本高昂,且难以针对特定硬件进行适配。这种「基座缺失」直接制约了具身智能从实验室走向产业落地的速度。

Spirit v1.5 的开源,标志着中国团队正在将 LLM 领域的开源繁荣,延续到具身智能领域。

对于科研界,它打破了「无 SOTA 可用」的局面,提供了一个与 Pi0.5 同等甚至更强的可复现基线;对于产业界,它为大量试图进入具身智能赛道的中小型厂商,提供了一套经过验证的、可商用的技术底座,避免了行业性的重复造轮子。

从 Qwen、DeepSeek 到 Spirit,中国团队正在通过高质量的开源贡献,逐渐从全球 AI 生态的「参与者」转变为关键基础设施的「建设者」。

结语:

从「追随」到「定义」

RoboChallenge 的榜首位置或许会轮换,数据的记录终将被刷新,但 Spirit v1.5 的出现具有明确的界碑意义:

它通过实验证明了「非结构化的多样性是比精选数据更好的老师」。在通往通用具身智能的道路上,中国团队已经结束了单纯的「跟随模式」,具备了在核心技术路径(数据范式)与生态建设上与全球顶尖团队「对等对话」甚至「定义规则」的能力。

随着代码仓库的公开,全球的目光和测试数据将涌向 Spirit v1.5。对于千寻智能而言,登顶榜单只是一个开始,真正的考验才刚刚拉开序幕:如何在真实世界的千万种场景中,经受住全球开发者的验证与打磨。

文中视频链接:https://mp.weixin.qq.com/s/ZrBDFuugPyuoQp4S6wEBWQ

来源:https://www.163.com/dy/article/KJ2KK7E60511AQHO.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

许哲诚计算性设计展演评析:数字逻辑与物质建构的生成境域
科技数码
许哲诚计算性设计展演评析:数字逻辑与物质建构的生成境域

数字逻辑与物质建构的深度对话 ——评许哲诚“境域·生成”计算性设计展演 □ 丁雅力(江苏省美术馆策展人) 当代设计与造物的核心范式,正经历着由计算性设计带来的深刻变革。2026年3月20日,南京艺术学院教师许哲诚于南京莫玄空间呈现的“境域·生成”个人专场展演,正是这一前沿趋势的集中体现。本次展览超越

热心网友
05.18
具身智能研发框架Dexbotic重塑机器人开发流程
AI
具身智能研发框架Dexbotic重塑机器人开发流程

近日,开源具身智能原生框架Dexbotic宣布正式支持以RLinf作为其分布式强化学习后端。对具身智能开发者而言,这不仅是一次普通的工程适配,更意味着VLA模型研发中长期存在的「SFT与RL割裂」问题,正在被真正打通。 这是一种典型的「乐高式协作」:双方不强行Fork、不粗暴揉合代码,而是保持清晰边

热心网友
05.13
RMS-MoE模型通过检索记忆优化专家路由调度效率
AI
RMS-MoE模型通过检索记忆优化专家路由调度效率

随着大模型参数规模不断增长,混合专家(Mixture-of-Experts, MoE)架构因其稀疏激活特性,成为平衡模型性能与计算开销的主流方案。然而,在实际的Web级应用部署中,一个关键挑战日益凸显:传统MoE的路由机制通常是“无记忆”的。 试想,在搜索引擎、智能问答或多轮对话等高并发场景下,用户

热心网友
05.12
编程入门指南从零基础到理解核心概念
编程语言
编程入门指南从零基础到理解核心概念

编程十年的一点分享 在软件开发的路上走过十几年,从一个爱好者到以此为业,有些体会或许值得聊聊,就当是抛砖引玉吧。 最早接触编程,是从BASIC和C语言开始的。工作后,随着需要,陆续学习了dBase、Access这类桌面数据库的开发。真正以开发为职业,可以说始于FoxPro 5 0,之后技术栈随着项目

热心网友
05.07
编程初学者入门指南与核心思维解析
编程语言
编程初学者入门指南与核心思维解析

引言 编程,是一门实践科学。这意味着,学习它的最佳方式就是动手去敲代码。但这是否意味着,我们可以因此轻视理论的学习呢? 入门编程 如果你去各大技术社区提问“该如何入门编程”,五花八门的答案会瞬间涌来。 不过,仔细梳理一下,无外乎以下几种流派: 学院派 他们推荐从C语言入手,并辅以数据结构、操作系统等

热心网友
05.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

《Zero Parades: For Dead Spies》游戏评分与媒体评价汇总
游戏攻略
《Zero Parades: For Dead Spies》游戏评分与媒体评价汇总

《Zero Parades: For Dead Spies》的媒体评测已经解禁,结果相当亮眼。这款被许多人视为《极乐迪斯科》精神续作的作品,在OpenCritic上拿到了86分的媒体均分,在Metacritic上也有83分。游戏将于5月21日正式登陆PC平台,看来2026年的必玩叙事RPG名单上,又

热心网友
05.18
Excel多级分类汇总一句话快速完成
AI
Excel多级分类汇总一句话快速完成

目录 你是否也遇到过这些问题 处理效果 前置准备 超简单AI自动化解决方案 第1步:准备好你的原始数据 第2步:针对指定的文件下达指令 第3步:验收 还能解决这些同类问题 指令为什么这么有用? 更多场景直接抄作业 销售数据三级汇总 成本数据多级汇总 库存数据汇总 员工薪资汇总 常见问题答疑 核心价值

热心网友
05.18
Kimi K2.6 智能体功能深度解析与体验评测
AI
Kimi K2.6 智能体功能深度解析与体验评测

AI Agent 的发展,正迎来一个关键的转折点,从概念验证迈向真正的生产力交付。 想象一下,当一个 AI 智能体能够在无需人工介入的情况下,独立完成一个复杂项目的全流程,并将成功经验固化为可随时调用的“技能”——这是否标志着 AI 在职场中的角色,已经从辅助工具演变为自主的生产力单元? 随着 Op

热心网友
05.18
苹果WWDC26前瞻 iOS27新Siri界面交互升级预测
AI
苹果WWDC26前瞻 iOS27新Siri界面交互升级预测

彭博社的马克・古尔曼在最新报道中透露了一个有趣的发现:苹果为WWDC 26发布的宣传海报,其设计细节可能暗藏玄机,指向了即将在iOS 27中亮相的全新Siri交互界面。 根据古尔曼的分析,新版Siri的核心变化在于与灵动岛的深度融合。唤醒时,它将不再以传统的全屏或底部卡片形式出现,而是会以一个扩展的

热心网友
05.18
GitHub刷星乱象调查 AI项目成虚假评分重灾区
AI
GitHub刷星乱象调查 AI项目成虚假评分重灾区

GitHub 的 Star 数量还值得信赖吗?真相可能比你想象的更严峻。 开源社区中“购买 Star”的现象早已不是秘密,其便捷程度甚至超过点外卖,单价低廉且支持批量折扣。然而,卡内基梅隆大学(CMU)一项被 ICSE 2026 顶会收录的最新研究,首次系统性地揭示了这场“造假生意”的惊人规模:Gi

热心网友
05.18