
当前具身智能的发展过程中,面对高质量训练数据严重短缺的瓶颈。传统的动作捕捉与遥操作技术虽然能够精准复现1:1动作,但采集设备的成本较为高昂——单套设备价格从几万元到数十万元不等,建设大型数据采集中心更是需要巨额投入。更值得关注的是,传统方式采集的数据在通用性方面表现欠佳,单一设备收集的数据通常仅适用于该设备自身,从而形成"数据孤岛",难以在不同机器人本体之间迁移复用。
这一困境让行业领先企业开始将目光转向互联网视频这一潜力巨大的数据资源。今年5月,特斯拉工程主管Milan Kovac公开透露,Optimus将告别传统动作捕捉和远程操控,转而直接从互联网视频中自主学习技能。互联网视频资源丰富多样、获取成本较低,且蕴含了大量人类与物理世界交互的高维度信息。如何将这些非结构化的2D视频数据,转化为机器人能够理解并执行的训练数据,成为技术突破的核心挑战。

桢途科技创立之初就专注于从视频中提取具身数据的关键技术,自主研发的SynaData数据管线,成功实现了从互联网单目视频中提取多模态、高精度具身训练数据的技术突破。SynaData通过视频数据升维、跨域重定向retargeting等技术手段,将普通2D视频转化为包含运动轨迹、物体网格等信息的具身训练数据。相较于传统采集方式,SynaData将综合采集成本降至行业平均水平的千分之五。以"拿取外卖袋"任务为例,通过分析人手拿取动作的视频片段提取数据,将模型的抓取成功率提升至88%以上。

SynaData解决方案的核心优势在于专注服务第三方客户,致力于构建开放的技术生态。区别于其他企业将视频数据token化并用于自有模型的做法,桢途科技定位为"具身数据基础设施建设者",从视频中提取的多模态具身数据已成功验证了清洁RDT、PI π0、智元UniVLA、EquiBot等主流VLA模型的有效性。
目前,SynaData已完成全管线技术验证,处理了数千小时多场景视频内容,输出数据覆盖抓取、放置、精细组装等百余种任务场景。

未来规划中,桢途科技将持续与行业伙伴共建开放数据生态。公司计划于2025年第四季度发布首个基于真实场景视频的多模态具身开源数据集,助力行业数据标准建设。技术路线图还计划将适配的机器人本体类型扩展至100种以上,覆盖人形机器人、灵巧手、协作机械臂等各类结构的机器人平台。
桢途科技CTO林啸对此表示:"数据质量决定模型性能的上限,而模型迭代则不断逼近这个上限。SynaData让机器人得以利用海量视频数据,通过观察人类行为视频来学习复杂技能,真正突破具身模型的能力边界。"随着SynaData系统的持续完善,具身智能领域将迎来低成本、高质量、海量数据支持的新发展阶段。
桢途科技将持续通过视频数据采集技术的创新,加速具身模型开发进程,推动更多机器人在复杂非标场景中实现规模化落地应用,践行Make Robots Work的使命。
