2026年IEEE国际机器人与自动化会议(ICRA 2026)即将在奥地利维也纳开幕。作为机器人与自动化领域的顶级学术盛会,每年这个节点,总有一些研究能让人眼前一亮。今年,多篇华人团队论文入围最佳论文奖提名,FP3就是其中之一。
FP3论文的导师之一高阳,是清华大学跨学科信息科学研究院(IIIS)的助理教授,同时也是国内具身独角兽千寻智能(Spirit AI)的联创兼首席科学家。团队这次贡献的研究,值得展开聊聊。
FP3到底做了什么?一句话概括:这是一个面向机器人操作的大规模三维基座策略模型。其实,基于海量多任务数据预训练的基座大模型,在机器人领域早已展现出巨大潜力。但一个普遍存在的问题是,绝大多数机器人基础策略模型只吃二维图像,缺失了三维几何信息。而三维几何,恰恰是机器人感知、理解真实三维空间的关键。
三维基座带来的改进
模型参数规模1.3B,基于可规模化的扩散Transformer架构搭建,预训练数据是6万条含点云观测的运动轨迹。凭借特有的模型结构与多元化的预训练数据,FP3可以快速微调,适配各类下游任务,泛化性能相当抢眼。
真机实测数据更能说明问题:仅需80组人工示教样本,FP3就能在包含全新未知物体的陌生场景中习得新任务。这一表现,大幅领先现有的机器人基座模型。
在自建的多项新任务数据集上验证FP3的高效微调与强泛化特性,结果相当直观:仅使用单卡、两小时微调,相较主流基线,同场景性能平均提升60%,开放未知场景性能平均提升80%。
性能对比表现突出
FP3在架构中设计了一个编码器-解码器扩散Transformer网络,先对多模态输入进行编码——包括3D点云、语言和机器人本体感受状态——然后再对动作进行去噪。
与业内其他机器人控制策略的对比结果,差距一目了然。域内实验显示,单场景仅10条示教样本的条件下:DP、DP3仅能勉强完成简单任务,多数场景成功率不足50%,在倒水这类高难度任务上基本失效;OpenVLA整体表现糟糕,根源在于缺少连续动作块预测机制。
而FP3,依托预训练与三维点云表征,全部任务成功率突破90%。从实操现象来看,基线算法失败多源于动作精度缺陷:夹取时定位偏差推飞物件、倒水时瓶口对偏。FP3凭借大参数量与海量预训练,能精准拟合复杂目标动作,输出轨迹更平滑、控制精度更高。
更考验功力的是零样本测试:将机械臂更换至全新环境,使用从未见过的物体。结果,不含预训练的所有基线策略普遍无法识别目标物体,任务成功率近乎归零。反观经过预训练的FP3,极少出现识别失效,全场景平均成功率超80%,全面碾压对照组。
研究团队的解释是,优异性能来自两点:一是大规模预训练覆盖海量场景与物件,大幅提升策略鲁棒性;二是点云输入可精准捕获三维几何特征,这是实现跨域泛化的关键。
指令跟随测试结果也颇具说服力。在初始环境完全一致的条件下,使用多条不同文本指令测试FP3与基线策略。FP3可精准依照指令执行对应任务,并非单纯死记训练数据分布。这一点,对于机器人实际落地应用至关重要。
当然,研究团队也坦诚地指出了FP3目前存在的若干短板:
第一,FP3下游微调效率与泛化能力突出,但基座原生零样本性能偏弱。诱因大概率是预训练所用DROID数据集体量不及OXE等二维机器人数据集,后续可构建规模更大的三维机器人数据集用于预训练。
第二,FP3仅依靠CLIP嵌入实现语言条件接入,难以表征复杂动态语义。后续可将本扩散架构FP3与视觉大模型VLM融合,搭建类似π0的视觉-语言-动作(VLA)模型。
第三,当前FP3未复用DINOV2、SigLIP等成熟预训练二维视觉编码器。融合三维点云特征与二维图像特征,或将二维特征升维至三维空间,具备巨大优化空间。相关研究留作未来工作——这也为后续研究留足了想象空间。
具身独角兽激烈竞逐
FP3之外,高阳所在的千寻智能今天也官宣了两大进展。
一方面,其自研具身基座模型Spirit v1.6在具身基准测试平台RoboArena中成功登顶,性能超过英伟达Cosmos3与Physical Intelligence Pi0.5,成为首个登顶的中国具身模型。
另一方面,该公司宣布新获15亿元A+轮融资,从2月份至今融资近50亿,再次刷新行业纪录。千寻智能在官宣中表示,2026年将积累100万小时级真实世界交互数据,涵盖丰富的长尾复杂场景与多模态操作样本,构筑核心护城河。
在另一份榜单——具身智能大规模真机评测平台RoboChallenge的Table30系列任务测试中,千寻智能此前发布的Spirit v1.5目前排名第四,排名第一的是星动纪元Era0模型,其次是原力灵机的DM0和极佳视界的GigaBrain-0.1。模型排位变换之间,也见证了中国具身智能创业赛道竞争之激烈。
今年以来,估值超百亿的具身独角兽不断扩容。除了上述几家公司,赛道中还有银河通用、星海图、智元、智平方、自变量、星尘智能、灵心巧手、帕西尼感知等。即将IPO的宇树也计划将募资重点投入到具身智能大模型。独角兽们的技术竞逐,正加速机器人行业拐点的到来,推动中国成为全球具身智能落地的核心市场。
