首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
Jim Fan力荐!千寻智能Spirit v1.5全球首发开源

Jim Fan力荐!千寻智能Spirit v1.5全球首发开源

热心网友
97
转载
2026-01-12



免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

编辑|+0

提到具身智能,你首先会想到什么?

是宇树在春晚惊艳亮相的「转手绢」、特斯拉 Optimus 的「金色传说」、真到被怀疑真假的小鹏,还是 2025 年各家竞相上演的「炫技大赏」,空翻、家务、热舞、打拳,无所不能?



已经过去的 2025 年,无疑是具身智能大爆发的一年。

热闹属于硬件,但具身智能还有另一个关键赛道:具身智能与机器人基础模型,即具身智能的「大脑」。它们定义了具身智能的智力天花板,也长期主导了行业对「通用性」的解释权。

在这个赛道,过去两年的叙事主线几乎被 Pi、Google、Figure 等海外团队主导。但在 2026 年伊始,格局发生了变化。

1 月 12 号,千寻智能(Spirit AI)开源了自研 VLA 基础模型Spirit v1.5,该模型在第三方机器人模型评测组织RoboChallenge 的 Table30 榜单上位列第一,超过了之前最强模型 Pi0.5。



千寻开源了Spirit v1.5的基模权重、推理代码以及使用样例,接受公众检验,也方便社区在 Spirit v1.5 的基础上创新。

Code: https://github.com/Spirit-AI-Team/spirit-v1.5Model: https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5Blog:https://www.spirit-ai.com/en/blog/spirit-v1-5



Spirit v1.5 vs Pi0.5 视频对比。上:Spirit v1.5,下:Pi0.5。

这一手「硬核登顶+开源共享」的组合拳,引发了海外 AI 社区的即时关注,甚至引来了英伟达具身智能负责人 Jim Fan(范麟熙)的点赞、Hugging Face 的最新祝贺,以及多位海外大 V 的转发。







这不再是一次简单的榜单轮换。它意味着,在具身智能这个未来的核心战场上,中国团队终于结束了「跟随模式」,正式拿到了「全球第一梯队」的入场券。

Spirit v1.5 为什么能赢 Pi0.5?

要回答这个问题,我们必须先看一眼「竞技场」。

RoboChallenge 是由 Dexmal、Hugging Face 和智源研究院等机构发起的全球首个大规模真机评测平台。与常见的仿真环境跑分不同,RoboChallenge 的核心在于物理世界的真机实测

平台建立了一套名为「Table30」的任务集,包含设定在桌面环境中的 30 个多样化操作任务。这些任务不仅涵盖插花、制作三明治、插入网线等日常技能,还被特意设计用来挑战模型能力的各个维度:包括精确的 3D 定位、遮挡处理、时间依赖性以及多阶段长序列任务。

在该体系下,Spirit v1.5 在多构型机器人(包括 Franka、Arx5、UR5 及双臂 ALOHA 系统)上均进行了评测。截至 2026 年 1 月 12 日的评估显示,Spirit v1.5 在该基准测试上超越了 Pi0.5 等之前的全球领先开源模型,取得了当前最优的性能。



Spirit v1.5 vs Pi0.5 视频对比。上:Spirit v1.5,下:Pi0.5。

Spirit v1.5 的胜出并非偶然,其核心原因在于对机器人预训练数据范式的根本性重构。

摆脱「干净数据」的诅咒,

转向「物理常识」的习得

传统的具身模型,大多基于如 Open X-Embodiment (OXE)、Agibot 和 RoboCOIN 等数据集进行训练。这些数据集虽然规模庞大,但主要由高度精选的、即所谓的「干净」数据组成。

在这种模式下,为了最大化采集成功率,研究人员往往像电影导演一样精心设计场景:物体被放置在可预测、易于触及的位置,动作被简化或脚本化。这种「完美」的数据虽然为模型提供了一个稳定的起点,但却产生了一个致命的副作用:经验的零散孤岛。

如果在训练中,「擦桌子」的数据集永远只包含桌子和标准的擦拭动作,模型就永远学不会如何在抹布打滑后恢复,或者如何处理桌面上意料之外的杂物。这种过度「净化」的数据限制了机器人的泛化能力,一旦面对开放世界的不可预测性,模型极易失效。

相比之下,Spirit v1.5 采用了「开放式、目标驱动」的数据采集策略。其核心理念是摒弃书面脚本,只给操作员一个模糊的高层目标(如「清理厨房」),允许其即兴发挥。

在 RoboChallenge 的 Table30 测试中,Spirit v1.5 展现出的跨场景泛化能力主要得益于以下几点:

构建连续的技能流形

传统数据制造了任务间的割裂,而 Spirit v1.5 的数据采集员可能会先拿起食物容器,发现碎屑后开始擦拭,接着整理餐具。这种连续的会话将多个微技能自然串联,涵盖了抓取、扭转、插入和复杂的双手协调。

这意味着模型不再是机械地重复单一动作,而是学习到了动作与动作之间的过渡与衔接。如同案例所示:无论是给假人模型化妆,还是组装复杂的乐高结构,模型掌握的是一个原子技能谱系,而非孤立的动作片段。

内化的纠错与恢复能力

这是 Spirit v1.5 区别于传统模型的关键。由于训练数据通过「将采集员派往现实环境中的随机地点」获得,包含了海量的物体交互和环境转换,模型见识过各种失败与混乱。因此,Spirit v1.5 习得了类似人类的「物理常识」。

当面对复杂操作中的干扰、物体打滑或光线突变时,模型展现出了惊人的韧性,它学会了在动作执行受阻时如何进行动态调整和恢复,而不是像脚本机器那样直接死机。



多样化采集数据示例。上:采集员通过末端执行器操作给假人模型化妆。下:采集员组装复杂的乐高结构。两个案例都展示了多样化原子技能的连续流,包括抓取、扭转、插入和复杂的双手协调。

模型不是「更大」,

而是「更对」

技术报告中的消融实验进一步证实,Spirit v1.5 的优势源于更高效的数据利用策略,而非盲目的算力扩张。

实验建立了两组模型进行对比:A 组使用精选演示数据,B 组使用开放式多样化数据,且保持两组的总数据量完全相同。结果揭示了显著的「多样性增益」:

收敛速度与迁移效率:在针对全新任务微调时,使用多样化采集训练的模型(Spirit 策略)达到相同性能基线所需的迭代次数比基线模型少了 40%。这表明,任务的多样性比单任务的演示数量更为关键。



多样化采集预训练的模型比干净数据采集训练的模型具有更快的收敛速度和更好的验证误差。

验证误差的持续下降:研究还发现,随着多样化数据规模的扩大,模型在新任务上的验证误差呈持续下降趋势。这证明模型正在有效地从现实世界日益增加的内在多样性中汲取养分,形成了一种通用的策略基础。



不同数据规模下的模型效果。扩大多样化采集的数据规模可以持续降低模型的验证误差。

既是「榜单杀手」,

也是「工程利器」

除了在学术榜单上领先,Spirit v1.5 在工程落地层面也解决了困扰行业已久的可扩展性的难题。

传统的「干净数据」采集需要工程师团队设计任务、编写详细指南并严格筛选数据,这种工作流程极大地限制了数据采集的体量和扩展性。

Spirit v1.5 采用的非结构化采集方式,允许操作员在只设定高层目标(如「清理厨房」)的前提下即兴发挥。这种范式转变带来了巨大的工程效益:

采集效率提升:数据显示,人均有效采集时长增加了200%。因为操作员不再是重复数百次枯燥的机械动作,而是像玩游戏一样在物理世界中互动,保持了极高的投入度。专家依赖降低:这种流程将对算法专家干预的需求削减了60%。这意味着,大规模扩展数据采集规模不再受限于稀缺的专家资源,管理成本不再线性增加。

目前,Spirit v1.5 的基模权重、推理代码以及使用样例已全部开源,供研究人员复现和探索。这不仅证明了其作为「实战派」模型的底气,也为通用机器人从实验室走向真实的家庭和产线环境铺平了道路。

中国开源力量的突破性进展

如果说技术上的超越是 Spirit v1.5 的「硬实力」,那么选择全量开源则是其更具产业价值的决定。

回顾过去两年,从 Qwen、DeepSeek 到 Kimi、GLM 等,中国的大模型团队已经证明了这一点:开源模型不仅能追平闭源模型的性能,更能成为推动全球技术平权的重要基础设施。这些来自中国的开源力量,实际上已经成为了许多海外开发者构建应用的首选基座。

不可否认,「开源共建」也已逐渐成为具身智能领域的行业共识,但拼图尚未完整。

高性能的机器人基础模型(如 Google RT 系列或 Pi)大多处于闭源或半闭源状态。开发者往往面临「两难」:要么使用性能较弱的旧模型,要么依赖大厂的 API,不仅成本高昂,且难以针对特定硬件进行适配。这种「基座缺失」直接制约了具身智能从实验室走向产业落地的速度。

Spirit v1.5 的开源,标志着中国团队正在将 LLM 领域的开源繁荣,延续到具身智能领域。

对于科研界,它打破了「无 SOTA 可用」的局面,提供了一个与 Pi0.5 同等甚至更强的可复现基线;对于产业界,它为大量试图进入具身智能赛道的中小型厂商,提供了一套经过验证的、可商用的技术底座,避免了行业性的重复造轮子。

从 Qwen、DeepSeek 到 Spirit,中国团队正在通过高质量的开源贡献,逐渐从全球 AI 生态的「参与者」转变为关键基础设施的「建设者」。

结语:

从「追随」到「定义」

RoboChallenge 的榜首位置或许会轮换,数据的记录终将被刷新,但 Spirit v1.5 的出现具有明确的界碑意义:

它通过实验证明了「非结构化的多样性是比精选数据更好的老师」。在通往通用具身智能的道路上,中国团队已经结束了单纯的「跟随模式」,具备了在核心技术路径(数据范式)与生态建设上与全球顶尖团队「对等对话」甚至「定义规则」的能力。

随着代码仓库的公开,全球的目光和测试数据将涌向 Spirit v1.5。对于千寻智能而言,登顶榜单只是一个开始,真正的考验才刚刚拉开序幕:如何在真实世界的千万种场景中,经受住全球开发者的验证与打磨。

文中视频链接:https://mp.weixin.qq.com/s/ZrBDFuugPyuoQp4S6wEBWQ

来源:https://www.163.com/dy/article/KJ2KK7E60511AQHO.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

全球首款带物理直觉的AI模型在沪发布,理解真实世界规律
科技数码
全球首款带物理直觉的AI模型在沪发布,理解真实世界规律

让AI告别“重视觉效果、轻物理逻辑”的行业短板,近期五一视界(51WORLD)发布全球首款物理直觉世界模型51World Model,实现AI遵循物理规律推演、与真实场景全要素交互的核心突破,彻底破

热心网友
04.01
宇树G1机器人拆解:揭秘超40%毛利率与全供应链控制
科技数码
宇树G1机器人拆解:揭秘超40%毛利率与全供应链控制

一台售价8 5万元的人形机器人,拆开来看,成本只有4 16万元,预估毛利率40 7%。但宇树G1的真正壁垒,藏在硬件之外。3月30日,中邮证券电新团队分析师苏千叶、盛炜、杨帅波发布《宇树G1人形机器

热心网友
04.01
极氪7系与001纪念版上市;B站猜你喜欢算法下线
科技数码
极氪7系与001纪念版上市;B站猜你喜欢算法下线

极氪将推出焕新7系和001五周年纪念版3月31日,极氪宣布两大新品动作:由极氪007GT与极氪007组成的焕新7系即将开启预售,同时极氪001五周年纪念版也将限量发售。据悉,极氪焕新7系将全系标配7

热心网友
04.01
谷歌量子计算新突破:10分钟破解比特币底层加密技术
科技数码
谷歌量子计算新突破:10分钟破解比特币底层加密技术

IT之家 4 月 1 日消息,科技媒体 Ars Technica 今天(4 月 1 日)发布博文,报道称谷歌最新披露的 2 份白皮书指出,攻破椭圆曲线加密所需资源远低于预期,可以大幅降低量子计算机破

热心网友
04.01
别卷工业机器人了,具备智能的柔性抓取才是未来
科技数码
别卷工业机器人了,具备智能的柔性抓取才是未来

科技帮助人类,而非代替者。青心意创想做的,是让雪宝这样大家深爱的角色,以具身智能的形态走进真实生活,在人们感到孤独或空落的时刻,带来一点真实的抚慰。文|江流编辑|王小坤不久前的英伟达GTC 2026

热心网友
04.01

最新APP

银河传说
银河传说
角色扮演 04-01
仙山小农
仙山小农
模拟经营 04-01
律动轨迹
律动轨迹
休闲益智 04-01
逐鹿
逐鹿
角色扮演 04-01
危境
危境
角色扮演 04-01

热门推荐

以太坊(ETH)价格预测:ETH 上涨 8%,一文分析
web3.0
以太坊(ETH)价格预测:ETH 上涨 8%,一文分析

市场情绪与技术指标双重支撑看涨趋势 当前的市场情绪,用一个词概括就是“贪婪”。加密货币恐惧与贪婪指数已经攀升至72的高位,这可不是普通的乐观,而是市场信心正在加速累积的明确信号。 那么,支撑这种乐观情绪的,仅仅是感觉吗?当然不是。把目光投向技术指标,你会发现更系统的证据。在28个常被关注的关键指标中

热心网友
04.01
择偶识人学贺思慕:5个关键前提让你看清关系本质
娱乐
择偶识人学贺思慕:5个关键前提让你看清关系本质

贺思慕一开始就对段胥充满怀疑,看他哪哪都很奇怪有问题。但又敢凑在他跟前,也敢信任他,帮助他。一个原因是她自己就很厉害,根本不怕他会对她不利。另一个原因也是她懂得洞察人,识人这一块,她一个活了几百年的

热心网友
04.01
iPhone15怎么开流量?详细步骤与常见问题解答
iphone
iPhone15怎么开流量?详细步骤与常见问题解答

在iPhone 15上启用蜂窝移动网络,其实非常简单。核心操作就一步:打开“设置”,进入“蜂窝网络”,然后将“蜂窝数据”的开关打开就行。 iPhone15开启蜂窝数据的详细步骤 新机到手,想立刻用上移动网络?别急,跟着下面的步骤操作,一分钟就能搞定。首先,解锁你的iPhone 15,在主屏幕上找到那

热心网友
04.01
什么是DooDoo?值得投资吗?DooDoo代币经济学及价格预测
web3.0
什么是DooDoo?值得投资吗?DooDoo代币经济学及价格预测

什么是 Aptos 生态系统? 最近,Aptos 生态热闹非凡,活动量激增,这似乎暗示着迷因币市场的风向正在悄然变化。作为一个第一层区块链平台,Aptos 在 Solana、Near Protocol 等一众明星项目中,走出了自己独特的路子。当整个行业都在朝着模块化区块链的方向高歌猛进时,Aptos

热心网友
04.01
什么是加密货币中的背离模式?它是如何运作的?背离模式详细介绍
web3.0
什么是加密货币中的背离模式?它是如何运作的?背离模式详细介绍

什么是背离模式? 在变幻莫测的加密货币市场中,有一种技术分析工具被资深交易者频频提起,那就是背离模式。它之所以重要,是因为能帮你嗅到趋势衰竭或反转的早期气息。掌握它,就如同在波涛汹涌的市场中多了一个可靠的罗盘,不仅能更好地理解行情节奏,还能显著提升交易决策的胜算。 什么是背离模式? 简单来说,背离模

热心网友
04.01