Sharpa联合清华等高校用一套策略打通21种传感器与多类具身形态_AI热点日报

过去几年，机器人视觉学习已经迈过了一道重要的门槛。像π₀ ₅、GR00T N1 5这类在大规模异构数据上预训练的VLA模型，正在成为下游操作任务的通用起点：拿到checkpoint，针对具体任务微调，再部署到真实机器人上。然而，触觉操作领域一直缺少这样的“基础模型时刻”。现有的触觉策略，绝大多数还是

过去几年，机器人视觉学习已经迈过了一道重要的门槛。像π₀.₅、GR00T N1.5这类在大规模异构数据上预训练的VLA模型，正在成为下游操作任务的通用起点：拿到checkpoint，针对具体任务微调，再部署到真实机器人上。

然而，触觉操作领域一直缺少这样的“基础模型时刻”。现有的触觉策略，绝大多数还是为特定硬件量身定做的：一个传感器、一只手、一个任务集，对应一套模型。虽然无论是GelSight、Contactile，还是力/力矩传感器，都能提供触觉信息，但它们的输入格式、分辨率和物理形态千差万别，导致已有的经验很难跨传感器、跨平台复用。

来自Sharpa、清华大学、UC Berkeley、上海交通大学、ETH Zurich等机构的研究者，终于拿出了首个通用触觉基础策略——FTP-1。它基于大约3,000小时、来自26个数据来源和21种触觉传感器的数据进行预训练。结果很惊人：它不仅能够在不同的具身平台之间迁移，即使在预训练阶段从未见过的传感器上，也展现出了很强的泛化能力，成功率提升超过31个百分点。

论文标题：FTP-1: A Generalist Foundation Tactile Policy Across Tactile Sensors for Contact-Rich Manipulation
论文地址：https://arxiv.org/abs/2606.13102
GitHub：https://ftp1-policy.github.io/

一个长期难题：触觉数据很重要，却很难被统一利用

通用的视觉-语言-动作（VLA）策略已经证明，大规模数据和异构数据可以带来可迁移的操作能力。但真正的接触密集型操作，比如插入、力控擦拭、手内调整、拧瓶盖等，不能只依赖视觉。机器人需要知道接触是否稳定、力是否偏移、物体是否即将打滑，以及当前动作是否需要减速或调整。

长期以来，触觉学习难以规模化，主要卡在三个问题上：

不同传感器难迁移。现有触觉策略大多绑定特定硬件，不同传感器、具身平台和观察格式之间难以复用，GelSight、Contactile与力/力矩数据之间也很难直接迁移。
简单融合往往无效。直接把触觉token注入VLM backbone，可能反而干扰原有的视觉-语言知识。在Sharpa North长程任务中，Tactile-VLA成功率为35.8%，低于π₀.₅的45.3%，这说明触觉需要专门的架构来处理。
缺少统一预训练语料。相比互联网图像和EgoScale超过20,000小时的人类视频，触觉操作长期缺少跨传感器、跨机械手和夹爪的统一数据集。FTP-1-Dataset正是为了填补这一缺口而来。

FTP-1想要回答的核心问题是：一个触觉策略，能否吸收异构的触觉经验，并迁移到预训练之外的传感器和机器人本体上？

方案：形态感知token + 独立触觉专家

FTP-1基于π₀.₅的多专家VLA架构进行扩展，实现了两点核心创新。

Morphology-Aware Tactile Token Space（MTTS，形态感知触觉token空间）

MTTS提供了一个统一接口，可以把任意触觉输入映射到24个功能区域token上。输入可以是GelSight这类图像，也可以是Contactile这类阵列，或是力/力矩状态量；映射后的token则对应语义一致的手部区域，比如拇指指尖、食指指尖、掌心、腕部力/力矩等。

功能区域embedding会告诉模型：每个token来自末端执行器的哪个位置，而不依赖具体的物理传感器。平行夹爪可以映射到拇指和食指槽位，灵巧手可以使用0-14号槽位，腕部和手指力/力矩传感器使用15-20号槽位。硬件不同，但语义保持一致。

Independent Tactile Transformer Expert（独立触觉Transformer专家，约300M参数）

不同于adapter式的融合，FTP-1会把所有触觉token路由到一个专门的触觉专家模块，再由动作头读取这些触觉表示；同时，它不会把梯度反传到视觉-语言专家中。这样既能保护原有的VLM知识，又能学习可复用的触觉表示。

在下游微调阶段，如果遇到预训练中没见过的新传感器，只需要从头训练对应的传感器encoder；预训练好的触觉专家、功能区域embedding，以及共享的图像-触觉Transformer模块都可以继续复用。

数据：FTP-1-Dataset，3,000小时、21种传感器、26个来源

基础模型能否成立，数据规模至关重要。FTP-1-Dataset汇集了来自26个来源的约3,000小时触觉操作数据，包含21种不同的触觉传感器（7种图像、5种阵列、9种状态）。重采样后的数据混合了大约20%的人类数据、30%的灵巧手数据、50%的夹爪数据。

其中，Sharpa贡献了Sharpa North-FTP-1：4,000条在Sharpa North上采集的长程灵巧操作示教，使用的是Sharpa DTC（Dynamic Tactile Array，动态触觉阵列）传感器。Sharpa DTC也是预训练混合数据中的21种传感器之一。

所有标注都在MTTS框架下统一标准化，语言指令也通过GPT-4o进行改写，以增强表达多样性。它的意义类似于触觉领域的ImageNet：不是简单堆更多数据，而是在异构原始信号之上建立一个共享表示层。

测试：5家机构、14个任务，覆盖已见与未见传感器

FTP-1的checkpoint被分发给全球5家独立机构，用于下游微调和验证。这是一次对可复现性和迁移能力都更严格的测试。

已见传感器设置（出现在预训练混合数据中）

未见传感器设置（未出现在预训练中）

整体来看，14个任务覆盖了手内调整、力控按压、插入/拔出、柔性物体交互，以及长程双臂操作。

结果：已知传感器提升17.2个百分点，未见传感器提升31.6个百分点

在仿真环境UniVTAC中，FTP-1的平均成功率达到66.7%，比最强基线高出17.5个百分点。如果排除相对简单的抓取，只看更依赖接触反馈的任务，FTP-1达到59.5%，而只做了架构改造、没有触觉预训练的FTP-π₀.₅为42.0%。

在真实机器人、且传感器已出现在预训练数据中的设置下，FTP-1的平均成功率为62.5%，比π₀.₅的45.3%高出17.2个百分点：

Twist Cap和Wipe Dish这两个任务尤其能说明问题。π₀.₅会持续顶住瓶盖，却缺少对力的反应式调整；擦盘子时也容易丢失接触。相比之下，FTP-1能保持更稳定的压力，并在触觉反馈提示对位不准时主动放慢插入动作。

未见传感器上的结果更关键：FTP-1比最强基线模型高出31.6个百分点，而且只需要从头训练传感器encoder。Insert Hanoi任务中，FTP-1展现出反应式插入控制，在对位不准时会减速；Insert USB中，即使只有100条示范数据，FTP-1也能生成稳定的接触感知动作，而基线模型更容易抖动并失败。

消融实验进一步说明，这不是“数据距离更近”带来的偶然结果。没有触觉预训练的NTP-1，即使采用相同的微调架构，在未见FlexivXense传感器上仍明显落后于FTP-1。这表明FTP-1学到的是可迁移的触觉知识，而不是某个传感器或某个任务的局部技巧。

为什么Sharpa是关键支点？

FTP-1并不是Sharpa技术栈之外的外部研究，而是建立在Sharpa的硬件、数据和模型能力之上。

Sharpa Wa ve的Dynamic Tactile Array（动态触觉阵列）在每个指尖提供超过1,000个触觉像素，并支持6-DoF力/力矩信息，是FTP-1预训练语料中的重要组成部分；Sharpa North则作为真实机器人评测平台，承担Draw Balloon、Fix Hand、Twist Cap等长程接触任务，验证触觉预训练在复杂操作中的价值。

更重要的是，Sharpa Wa ve的22-DoF拟人化动作空间，与EgoScale、T-Rex等研究中的动作表示形成呼应，使硬件、数据和模型围绕同一具身标准逐步对齐。FTP-1也进一步验证了CraftNet的判断：触觉不应只是视觉-语言模型的附属输入，而需要独立、高频、可迁移的表示与控制通路。结合Isaac Sim资产与真实Wa ve灵巧手，Sharpa正在从触觉硬件走向基础模型与生态闭环。

更大的图景：触觉进入基础模型时代

多年来，触觉机器人一直面临一个循环难题：没有共享表示，就难以形成共享数据集；没有共享数据集，又难以训练共享模型。FTP-1用三个核心组件打破了这个循环。

MTTS：一种覆盖21种传感器的通用触觉token语言
FTP-1-Dataset：约3,000小时异构触觉操作经验
Tactile Expert：可复用的预训练触觉表示，而不是每个传感器从零训练
开放发布：预训练模型、数据集和训练代码已在ftp1-policy.github.io提供。

结合SaTA的空间触觉定位、Tacmap的触觉仿真到现实迁移、T-Rex的高频触觉反应，以及CraftNet的分层VTLA架构，FTP-1让Sharpa触觉智能的技术路径变得更完整：触觉能力可以像视觉能力一样，被预训练、共享并迁移。

对Sharpa来说，FTP-1也帮助Wa ve的硬件价值进一步延伸到软件层。未来，在Sharpa平台上采集的每一小时触觉数据，都不再只服务于某一个具体任务，而是会持续沉淀为可复用的模型能力，推动整个触觉机器人生态共同进化。

更多相关research：

SaTA —— Spatially-Anchored Tactile Awareness
CraftNet —— Hierarchical VTLA for Fine Manipulation
T-Rex —— Tactile-Reactive Dexterous Manipulation