对标英伟达EgoScale：清华系星忆科技首轮融资突围

时间：2026-03-27 17:10

文｜任倩具身数据层的全球竞赛正在迅速升温。NVIDIA Research在2026年发布EgoScale数据与训练框架，在Ego-centric人类操作视频上训练VLA模型，用 20,854小时带动

文｜任倩

具身数据层的全球竞赛正在迅速升温。NVIDIA Research在2026年发布EgoScale数据与训练框架，在Ego-centric人类操作视频上训练VLA模型，用 20,854小时带动作标注的第一人称人类视频，观察到数据规模和验证损失之间接近对数线性的scaling law。1X收集人类第一视角及家庭行为数据，通过 Sunday项目采集百万小时级家庭场景视频。光轮智能采用仿真合成数据和人类视频数据（EgoSuite）的混合路线，宣称累计交付突破100万小时，估值飙向十亿美金。

几个月内，行业关注点已不再只是“谁采得更多”，而是“谁能把Human-centric /Ego-centric数据真正做成高自由度、高精度、低成本、可训练的资产”。

这背后是一场明确的数据范式迁移。过去一年，全球头部玩家几乎同时把目光转向Human-centric data：不是更大规模的第三人称素材，也不只是昂贵而稀缺的真机遥操作，而是更接近人类真实操作分布的数据。而其中Ego-centric——以人类第一视角、真实物理交互和多模态感知为核心——正迅速成为最关键的一条采集路线。

原因在于，机器人最终要学会的，不是看懂世界，而是在真实物理世界里把动作做对。第三人称视频缺少接触与控制细节，仿真难以完整覆盖真实物理长尾，纯遥操数据又昂贵且稀缺。真正稀缺的，是一种既足够真实、又足够精细，同时还能被规模化生产并被模型直接消化的数据。就在这一拐点上，一家选择从多模态融合与穿戴式高精度采集切入这一难点的公司，开始浮出水面。

「暗涌Waves」独家获悉，聚焦Ego-centric数据采集的创业公司星忆科技完成千万级首轮融资，由清华系水木创投领投，泉士资本作为孵化方长期为公司提供产业及资本支持，并参与本轮投资；神州通誉系钥卓资本、资深产业天使团队等跟投。Maple Pledge枫承资本长期出任公司私募股权融资顾问。

星忆科技孵化自清华大学计算机系，创始人宋知珩曾任智元机器人全尺寸双足人形整机产品负责人，并负责相关数采与遥操体系建设；在此之前，他是镁伽机器人前20号员工，建立创新应用事业部并担任产品负责人，带领研发团队五次完成0到1新产品开发，牵头研发从双臂协作机器人到桌面级智能设备，实现公司首个万台量产与过亿营收。

如果说human-centric/ego-centric数据正在成为具身智能的新地基，那么星忆最突出的地方，不只是押中了方向，而是它恰好把这一方向最难接齐的几段链路放进了同一个组织里。其核心成员覆盖具身数据、模型、穿戴设备、复杂系统与数据工程等关键环节，形成了“数据—模型—产品—商业化”齐接的能力结构。

团队技术班底来自清华、北航等高校，同时吸纳了埃夫特、海康威视等资深产业专家，在具身智能、多模态感知、三维手部理解、虚拟现实、人机交互与计算机视觉等方向均有长期研究，累计在CVPR、ICCV、ECCV、NeurIPS、IJCAI等国际顶级会议和期刊发表论文70余篇，承担多项国家级科研项目。

对标英伟达EgoScale技术路径，星忆构建的是面向具身智能与世界模型的数据采集软硬件体系。其差异化在于：不做二指夹爪式UMI路线，而是做高自由度基础上的高精度；不只采集视觉，而是同时融合视觉、触觉与姿态；不只提供工具，而是试图打通从采集到训练的完整闭环。

宋知珩认为，真正有价值的真机数据，不是谁采得多，而是谁能同时满足五个条件：真实、精准、高自由度、低成本、可训练。在他看来，星忆当前最突出的优势集中在精度与自由度两端，而低成本与可训练性则决定这条路线能否真正走向规模化。

前不久，「暗涌Waves」在北京中关村见到了宋知珩和星忆自研的多模态数据采集穿戴设备，他和我们聊了聊数据集采技术路线的根本分歧、毫米级姿态标注的难点以及从数据供应商到物理世界接口的漫漫长路。

以下为对话——

Part01

从采得多到采得准

「暗涌」：做数据的公司非常多，也有融资体量比你们大很多的，星忆科技的定位是什么？

宋知珩：我们是具身智能的物理数据基础设施。通过自研的高精度穿戴设备与数据引擎，将人类精巧的“生产力经验”转化为机器人可学习的“数字养料”。

核心只有一件事：让机器人具备在真实复杂的世界中完成精细操作的能力。不是让机器人跳舞，而是让它能像外科医生一样握稳手术刀。

「暗涌」：为什么选择在此时此刻、从数据这个环节切入创业？你在智元看到了什么？

宋知珩：我在智元担任全尺寸双足人形整机产品负责人，也负责数采与遥操。我们能够清晰地看到，整个行业卖得最多的场景仍然是展厅、商演、科研、数采，很难形成可复制的生产力闭环。

核心卡点就是高质量的真实数据不足：模型既缺少对物理世界的有效表征，也缺少可迁移的操作先验，而我们做的，就是补这一层。从外部看，我们是对标EgoScale；从我们内部看，这是很早就形成的一条判断：具身智能最终缺的，不只是模型和本体，关键是建立最高效的数据路径。英伟达把这条路线公开做热，也说明这正在成为行业共识。

「暗涌」：为什么EgoScale这么火爆？为什么具身本体公司都在积极关注这条技术路线？EgoScale框架到底特别在哪里，突破点又是什么？

宋知珩：EgoScale之所以迅速走红，核心在于它验证了一条非常有吸引力的路径：通过超大规模的人类第一视角数据，实现从人类行为到机器人操作能力的高效迁移。这件事对具身智能非常重要，因为过去机器人训练长期受限于真机数据昂贵、采集慢、覆盖场景有限，始终难以真正做大规模。

EgoScale的突破，在于它不是简单堆数据，而是构建了一套更系统的训练框架。通过分阶段训练，它先从海量人类第一视角操作数据中学习通用的行为先验，再进一步向机器人动作空间迁移，显著提升了机器人在灵巧操作任务中的成功率。这样的设计，使它有机会突破传统“小样本、重遥操作、强依赖本体数据”的限制。

更关键的是，这条路线天然适配具身行业当前最核心的诉求：一方面，人类数据比机器人数据更容易规模化获取；另一方面，这种框架对于不同形态、不同自由度的机器人本体都具备较强的泛化潜力。对于本体公司来说，谁能更高效地获得可迁移、可扩展、可复用的数据和训练范式，谁就更有机会在下一阶段的能力竞争中占据先机。这也是为什么整个行业都在高度关注EgoScale。

「暗涌」：你们和EgoScale有区别吗？在哪里？

宋知珩：有的，我们不仅有更多的模态，触觉对于精细操作是必不可少的，同时我们对场景有着更高的兼容性，不局限在实验室，是EgoScale in the wild，对场景几乎无约束，能够直接在真实的生产场景中佩戴我们的设备采集，这对于算法和穿戴舒适性都是更高的挑战。

星忆EgoKit多模态数采套件及星忆HBR Engine数据引擎｜图片来源：企业供图

「暗涌」：怎么理解“世界顶尖”？

宋知珩：决定上限的，不只是模型参数，而是teacher signal的质量：多模态采集、细粒度手部理解和高精度标注，这些才是高质量具身数据的第一性。想象一下，如果示范动作本身存在抖动、偏移和时序误差，模型学到的不会是能力，而是误差。

人体姿态估计很多时候是厘米级问题，手部则往往要进入毫米级：关节点更密、遮挡更多、手物接触更复杂，技术难度不是线性增加，而是成倍上升。

也正因此，手部理解是具身数据里最难的一层之一，是L4-L5级别的技术，我们恰恰有全球最好的这方面能力，而人体姿态是L2，我们把这一层做深做透的基础上，向上再扩展到上肢乃至全身，路径反而更顺。

「暗涌」：为什么一定要做多模态融合（视觉+触觉+姿态），单纯视觉不够吗？大模型不是已经能看懂世界了吗？

宋知珩：不是模型不够聪明，而是它从来没有真正“触摸”过真实世界。精细操作至少需要三类信息：三维视觉、身体姿态，以及触觉。

三维视觉告诉你物体在哪里，姿态告诉你手和臂是怎么到达那里的。而真正进入接触瞬间后，决定成败的往往是触觉：有没有接触、是否打滑、该用多大力、什么时候该收力。触觉提供的是接触状态、摩擦变化和微滑移信息，它是视觉的终点，也是力控的起点。

「暗涌」：听说你们能做到戴手套情况下的手势识别，这很难吗？Meta和Apple不是也在做？

宋知珩：极难。Meta用肉色手套，本质上还是让模型把它当成“更粗壮的人手”来识别。我们可以用黑色手套，模型能在特征空间里识别出这是手，并精确解析姿态。Apple的手势技术很强，但公开路线仍以裸手交互为主。

为什么这重要？因为触觉最自然的载体就是手套，如果不能在穿戴状态下稳定完成手部理解，就没法把视觉、触觉和姿态真正融合起来。这背后难的不只是识别本身，而是多模态系统要在精度、时延和成本之间同时成立。

「暗涌」：你们提到“毫米级标注”，具体能达到什么精度？成本相比传统方式如何？

宋知珩：对手部这样高密度、强遮挡的任务来说，传统人工标注和通用开源算法都很难同时兼顾精度与一致性。我们能够在长序列、强接触条件下，把数据引擎的标注能力稳定推到毫米级，并且比人类专家的标注能力具备更强的一致性。

成本上，人工标注一秒钟视频（30帧）三个视角，哪怕0.1元标一张图也要3块钱一秒，一分钟180块。我们强大的标注引擎，成本是传统人工的几百分之一，但精度更高。这就是“低成本+高质量”的双飞轮。

「暗涌」：为什么不做仿真数据？英伟达不是也在推仿真到现实的迁移？

宋知珩：仿真在预训练、策略搜索和并行试错上很有价值，但一旦进入真实世界的复杂接触，sim-to-real gap依然显著。

比如，把一根像面条一样会弯、会回弹、会打滑的柔性排线，准确插进毫米级接口并一次完成扣合，这类任务涉及接触、形变、摩擦、遮挡和连续反馈修正，很难在仿真中被完整还原。英伟达推动sim-to-real，方向当然是对的，但本质不是“用仿真替代真实”，而是让仿真更接近真实，仍需大量真实数据持续对齐和校准。

我们判断，真正有价值的真机数据要同时满足五个条件：真实（物理交互）、精准（精细操作）、高自由度（泛化性）、低成本（可规模化）、可训练（标准化处理）。五个条件缺一不可，仿真数据在“真实”这一关就过不了。

「暗涌」：你们的数据采集流程具体是怎样的？怎么保证低成本？

宋知珩：传统真机遥操需要租场地、买设备、雇人，成本极高。

我们是一个流式过程：采集员或工人佩戴我们的穿戴套件在真实产线或场景操作，数据引擎实时捕捉视觉、触觉、位置、轨迹，并进行毫秒级对齐，形成可进一步张量化的多模态训练数据。随后，我们的离线工具链会自动进行“毫米级标注”，过滤无效噪声，形成可以直接用于具身模型训练的高质量数据。

「暗涌」：真实环境不可控，如何保证数据质量和安全性？数据会开源吗？

宋知珩：我们有一套内嵌的“质量审计引擎”，自动剔除抖动、丢帧和逻辑不合理的动作。关于开源，星忆有明确的节奏：我们将会在今年陆续开源1000至10000小时的高精度数据集。我们认为，具身智能的繁荣不能靠“闭关锁国”，我们要推动行业共建地基。

「暗涌」：你提到过两个“金字塔”——一个是机器人能力的金字塔，一个是数据的金字塔。它们分别意味着什么？星忆科技切入的是哪一层？

宋知珩：我们内部确实会用两个“金字塔”来理解具身智能。

第一个是能力金字塔：从下往上，本体是底座，其上是运动智能，再往上是认知智能；而认知智能如果继续拆分，又可以分成交互智能和作业智能。前者解决“能不能听懂、会不会表达”，后者解决“能不能在真实物理世界里完成有目标、有约束的操作任务”。真正决定具身系统上限的，是作业智能这一层。

第二个是数据金字塔，底层是互联网数据，规模最大，提供语义和常识先验；再往上是仿真/合成数据，适合预训练、策略搜索和并行试错；再往上是以第一人称人类数据为代表的多模态真实数据；最顶层则是真机遥操数据。越往上，数据量越小，但越接近真实任务、真实接触和真实控制闭环。

数据金字塔｜图片来源：企业供图

越往上走，数据越少，但价值密度越高。行业今天真正缺的，不是又一层大而泛的数据，而是能进入复杂接触、又能被模型有效消化的高质量真实数据。

Part02

从数据供应商到物理世界接口

「暗涌」：你们跟其他做数据采集的公司比如做UMI（通用操作接口）的、做真机遥操的，本质区别是什么？

宋知珩：UMI路线的重要意义，在于证明了人类演示可以成为机器人学习的重要入口；DexUMI这类工作又把这条路线往更高自由度推进了一步。

但星忆和这类路线的区别，不在于是否认同这个方向，而在于目标函数不同：它们优先解决的是低门槛、可迁移、可扩展；而星忆优先解决的，是在高自由度前提下，把视觉、触觉、姿态这些决定精细操作上限的信号，真正采全、采准、采成可训练的数据资产。

我们认为二指夹爪是工业化遗留的产物，只能在特定场景高效完成特定任务，但AGI要求泛化能力——用一套本体在复杂物理世界做各种操作。这要求末端执行器具备高自由度。我们不做二指夹爪，做“高自由度基础上的高精度”。人手有21个自由度，UMI的二指夹爪拿不稳手术刀，也按不了打火机，但高自由度的灵巧手可以。

星忆与这类路线的区别，不在于能不能低成本采到数据，而在于能否在更高自由度前提下，把精度、可训练性和规模化同时做出来。

「暗涌」：所以你们的产品和服务也是tob的。

宋知珩：是的。路径非常清晰：第一步，服务于高校和顶级实验室（科研需求），也包括数采厂；第二步，切入机器人本体和模型厂商（训练需求）；第三步，触达最终场景方（落地需求）。我们要建立一个从数采工具到在线引擎再到场景落地的完整商业闭环。售卖穿戴硬件和数据集，这是两类标准产品。对于只想快速提升模型训练效果的客户，可以直接买成品数据集，我们有相应的技术支持，可以快速地帮助客户完成对应的模型训练。

「暗涌」：清华系和华为系都在做具身，你们怎么定义自己的独特性？会不会觉得你们只做数据，缺乏端到端的能力？

宋知珩：华为系更擅长从通信、工程体系和底层架构去理解系统。我们不简单归结为派系差异，关键在于如何定义具身智能里最难、最稀缺的问题。

本体可以买，算法可以跑开源，但具备真机反馈的高精度高质量动作数据是买不到的。它是非标准化的、强依赖物理反馈的。我们要把这种最难规模化的“工匠手艺”数字化、标准化，让它能像自来水一样供应给所有大脑厂商。

「暗涌」：数据规模的天花板有多高？有人说需要百亿条数据，有人说10亿条就够了，你怎么看？

宋知珩：这是一个效率问题。做模型的人想减少数据需求，做数据的人想提高质量和规模，最终会在中间match。

早期学界认为需要百亿到千亿条，也就是一亿到十亿小时，我们认为最终会落在一亿小时这个量级。但这一亿小时不是“加权平均”，而是最高质量的数据——就像人类基因花了四五亿年演化，预训练大模型需要这些高质量数据形成“具身基因”，然后再通过真机强化学习提升特定任务能力。

「暗涌」：有人说机器人行业的尽头是国家级数据基础设施，你认同吗？你们会站队吗？

宋知珩：与其说是站队，不如说是抱团。这个行业很难单打独斗，需要国家队、产业生态一起打造。

「暗涌」：你判断具身智能什么时候能真正落地？星忆在这个过程中扮演什么角色？

宋知珩：3年进工厂，5年进家庭。

工厂指特定场景的单一任务，通过真机强化学习提高正确率到99%以上；家庭指不同环境，需要模型具备泛化能力，同时又有安全、隐私等方面的要求。目前行业整体仍处于POC阶段，纯端到端方案的准确率通常只有70%–80%，尚不足以支撑稳定落地，仍需依赖人工监督或rule-based机制进行兜底。

在全球具身智能版图中，Physical Intelligence和Generalist更聚焦模型与通用策略的上层突破，而星忆切入的，是更难被替代的一层：以高质量、规模化的真实物理数据积累，定义AGI时代的通用行动接口。

「暗涌」：你们的团队配置很跨界——清华学术背景、智元和镁伽量产经验，这种组合如何转化为竞争力？

宋知珩：很多人把具身智能理解成模型、硬件或场景的单点竞争，但更底层的竞争，是把真实世界经验转化为机器人能力的系统效率竞争。我们团队真正的竞争力，在于将学术、工程和产业最难接上的链路，在团队内部充分打通：我们既懂真实世界经验如何被采集、对齐、表征并沉淀为可训练资产，也懂模型如何基于这些资产完成学习，并在真实场景中持续验证、校准和回流。

单点能力可以补，闭环能力很难长出来。下一阶段具身智能真正拉开差距的，不是谁能做出一个更亮眼的模型、一个更好的硬件，或者一个更能传播的Demo，而是谁能率先把高标准数据资产的规模化生产能力建立起来，并把它做成一套从真实世界持续学习、持续回流、持续长出能力的系统。谁先把这套系统做出来，谁才更有机会定义下一阶段具身智能的产业路径。

来源：https://www.163.com/dy/article/KP1PQE8305118DFD.html