清华高阳团队FP3项目入围ICRA2026最佳论文奖

首页/业界动态/文章详情

清华高阳团队FP3项目入围ICRA2026最佳论文奖

时间：2026-06-09 12:54

FP3是面向机器人操作的大规模三维基座策略模型，参数1 3B，基于扩散Transformer架构，预训练6万条含点云轨迹。仅需80组示教样本即可在陌生场景习得新任务，微调后性能平均提升60%，零样本成功率超80%。

2026年IEEE国际机器人与自动化会议（ICRA 2026）即将在奥地利维也纳开幕。作为机器人与自动化领域的顶级学术盛会，每年这个节点，总有一些研究能让人眼前一亮。今年，多篇华人团队论文入围最佳论文奖提名，FP3就是其中之一。

FP3论文的导师之一高阳，是清华大学跨学科信息科学研究院（IIIS）的助理教授，同时也是国内具身独角兽千寻智能（Spirit AI）的联创兼首席科学家。团队这次贡献的研究，值得展开聊聊。

FP3到底做了什么？一句话概括：这是一个面向机器人操作的大规模三维基座策略模型。其实，基于海量多任务数据预训练的基座大模型，在机器人领域早已展现出巨大潜力。但一个普遍存在的问题是，绝大多数机器人基础策略模型只吃二维图像，缺失了三维几何信息。而三维几何，恰恰是机器人感知、理解真实三维空间的关键。

三维基座带来的改进

模型参数规模1.3B，基于可规模化的扩散Transformer架构搭建，预训练数据是6万条含点云观测的运动轨迹。凭借特有的模型结构与多元化的预训练数据，FP3可以快速微调，适配各类下游任务，泛化性能相当抢眼。

真机实测数据更能说明问题：仅需80组人工示教样本，FP3就能在包含全新未知物体的陌生场景中习得新任务。这一表现，大幅领先现有的机器人基座模型。

在自建的多项新任务数据集上验证FP3的高效微调与强泛化特性，结果相当直观：仅使用单卡、两小时微调，相较主流基线，同场景性能平均提升60%，开放未知场景性能平均提升80%。

性能对比表现突出

FP3在架构中设计了一个编码器-解码器扩散Transformer网络，先对多模态输入进行编码——包括3D点云、语言和机器人本体感受状态——然后再对动作进行去噪。

与业内其他机器人控制策略的对比结果，差距一目了然。域内实验显示，单场景仅10条示教样本的条件下：DP、DP3仅能勉强完成简单任务，多数场景成功率不足50%，在倒水这类高难度任务上基本失效；OpenVLA整体表现糟糕，根源在于缺少连续动作块预测机制。

而FP3，依托预训练与三维点云表征，全部任务成功率突破90%。从实操现象来看，基线算法失败多源于动作精度缺陷：夹取时定位偏差推飞物件、倒水时瓶口对偏。FP3凭借大参数量与海量预训练，能精准拟合复杂目标动作，输出轨迹更平滑、控制精度更高。

更考验功力的是零样本测试：将机械臂更换至全新环境，使用从未见过的物体。结果，不含预训练的所有基线策略普遍无法识别目标物体，任务成功率近乎归零。反观经过预训练的FP3，极少出现识别失效，全场景平均成功率超80%，全面碾压对照组。

研究团队的解释是，优异性能来自两点：一是大规模预训练覆盖海量场景与物件，大幅提升策略鲁棒性；二是点云输入可精准捕获三维几何特征，这是实现跨域泛化的关键。

指令跟随测试结果也颇具说服力。在初始环境完全一致的条件下，使用多条不同文本指令测试FP3与基线策略。FP3可精准依照指令执行对应任务，并非单纯死记训练数据分布。这一点，对于机器人实际落地应用至关重要。

当然，研究团队也坦诚地指出了FP3目前存在的若干短板：

第一，FP3下游微调效率与泛化能力突出，但基座原生零样本性能偏弱。诱因大概率是预训练所用DROID数据集体量不及OXE等二维机器人数据集，后续可构建规模更大的三维机器人数据集用于预训练。

第二，FP3仅依靠CLIP嵌入实现语言条件接入，难以表征复杂动态语义。后续可将本扩散架构FP3与视觉大模型VLM融合，搭建类似π0的视觉-语言-动作（VLA）模型。

第三，当前FP3未复用DINOV2、SigLIP等成熟预训练二维视觉编码器。融合三维点云特征与二维图像特征，或将二维特征升维至三维空间，具备巨大优化空间。相关研究留作未来工作——这也为后续研究留足了想象空间。

具身独角兽激烈竞逐

FP3之外，高阳所在的千寻智能今天也官宣了两大进展。

一方面，其自研具身基座模型Spirit v1.6在具身基准测试平台RoboArena中成功登顶，性能超过英伟达Cosmos3与Physical Intelligence Pi0.5，成为首个登顶的中国具身模型。

另一方面，该公司宣布新获15亿元A+轮融资，从2月份至今融资近50亿，再次刷新行业纪录。千寻智能在官宣中表示，2026年将积累100万小时级真实世界交互数据，涵盖丰富的长尾复杂场景与多模态操作样本，构筑核心护城河。

在另一份榜单——具身智能大规模真机评测平台RoboChallenge的Table30系列任务测试中，千寻智能此前发布的Spirit v1.5目前排名第四，排名第一的是星动纪元Era0模型，其次是原力灵机的DM0和极佳视界的GigaBrain-0.1。模型排位变换之间，也见证了中国具身智能创业赛道竞争之激烈。

今年以来，估值超百亿的具身独角兽不断扩容。除了上述几家公司，赛道中还有银河通用、星海图、智元、智平方、自变量、星尘智能、灵心巧手、帕西尼感知等。即将IPO的宇树也计划将募资重点投入到具身智能大模型。独角兽们的技术竞逐，正加速机器人行业拐点的到来，推动中国成为全球具身智能落地的核心市场。

来源：https://www.leiphone.com/category/robot/tTanpzX7mu3CDICJ.html

科学家

上一篇松下下半年或将发布两款新相机 下一篇尼康Z 120-300mm f/2.8镜头现身法网征战世界杯

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略，采用“1+N+X”布局，联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm，体重69kg，移动速度0 8m s，具备40个自由度，续航超2小时。预计明年一季度发布首款车载组件机器人，已在广州车展展示。

业界动态 · 2026-06-29

中国信科刷新光通信世界纪录每秒可下载1.4万部4K电影

3月25日，光通信领域迎来又一个里程碑：中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司，成功实现了2 5Pb s 24芯光纤超大容量实时光传输，再次刷新了世界纪录。这一研究成果不仅入选国际顶级光通信会议OFC（2026）并荣获“高分论文”称号，还受国际权威SCI

业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查，焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿，不意味着立即召回，但可能引发后续监管措施。

业界动态 · 2026-06-29

doc个人图书馆停服创始人称无偿转让失败

运营长达20年，累计服务8000万用户的360doc个人图书馆，最终还是迎来了谢幕时刻。2026年5月1日，这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失，而是始终未能寻得一位能够安全接管的合适人选。创始人蔡智在告别信中坦言，近两个月来，他一直在尝试将360doc无偿转

业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月，艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证，紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后，折射出一个清晰的市场趋势：移动办公、户外出行、宿舍上网等场景的需求正在快速增长，随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿