戴盟机器人获亿元融资阿里通义多模态大牛加盟攻关物理世界模型_AI热点日报

戴盟机器人获亿元融资阿里通义多模态大牛加盟攻关物理世界模型

类型：热点整理2026-06-04

每个清晨，都有大量资本涌入具身智能赛道，今天也不例外。具身智能企业戴盟机器人（Daimon Robotics）近日顺利完成亿元级A轮融资，本轮投资方为汇川产投与中国电信。这轮融资值得深入解读，其背后释放出一个清晰的信号——技术路线的选择方向。在视觉、多模态、VLA、世界模型成为行业热议焦点的当下，戴

每个清晨，都有大量资本涌入具身智能赛道，今天也不例外。

具身智能企业戴盟机器人（Daimon Robotics）近日顺利完成亿元级A轮融资，本轮投资方为汇川产投与中国电信。

这轮融资值得深入解读，其背后释放出一个清晰的信号——技术路线的选择方向。在视觉、多模态、VLA、世界模型成为行业热议焦点的当下，戴盟将核心聚焦于触觉技术路径。

与此同时，另一则消息同样引人关注——原阿里通义实验室多模态研究专家原玮浩正式加入戴盟，担任首席AI科学家。

原玮浩博士毕业于香港科技大学，研究方向涵盖具身人工智能（VLA/WAM/强化学习/触觉智能/人形运动）及三维视觉（重建/生成/世界模型），在多模态大模型以及将世界模型迁移至机器人物理操作方面积累了前沿经验。他在NeurIPS、ICLR、CVPR、ICRA等人工智能顶级会议上已发表论文40余篇，其中包含多篇Oral论文，其主导开发的NeWCRFs算法曾登顶国际权威榜单KITTI。

核心发展重点：物理世界模型

戴盟方面表示，本轮融资到账后将主要投入三个方向：物理世界模型研发、包含物理交互信息的超大规模数据集，以及真实场景下的数据飞轮与商业闭环构建。

原玮浩的解读直白且精准：这三件事本质上是一体三面，“数据是燃料，物理世界模型是引擎，飞轮则决定了引擎能否持续高效运转”。

其中，物理世界模型将成为戴盟后续战略布局的重中之重——团队招聘、算力加码、模型打磨，所有规划都将围绕这一核心落地。

不过，戴盟对物理世界模型有着独特的定义。“我们的物理世界模型，是以多模态接触状态为条件来预测未来。”它关注的并非简单的画面帧变化，而是更底层的信息：下一刻的触觉信号、接触状态，以及当前操作是否会失败、失败原因何在、如何修正。原玮浩总结道：“简单来讲，视频世界模型在预测画面，而我们在预测物理交互。”

为实现这一目标，戴盟将物理接触拆解为两个层次。

第一层是认知层，实现触觉与视觉、语言、几何等模态在同一表征空间内的相互映射。例如，桌上同时放着一颗葡萄和一颗同等大小的玻璃珠，人无需真正抓起，就能意识到两者不能采用相同操作策略。葡萄需要轻柔，用指腹包裹；玻璃珠则可以施加更大力度，用指尖捏取。这背后的机制，实际上是视觉直接映射成了触觉预判。

第二层是执行层，包含两套并行运行的机制。一套是百赫兹级的高频触觉伺服，类似于脊髓反射——不经过上层推理，物体刚产生滑移趋势时，补偿动作便已发出，新的视觉帧尚未生成。原玮浩指出，这种毫秒级的边缘力控，纯视觉模型完全无法及时响应。另一套是物理世界推理，模型会持续预测未来的接触状态，在失误真正发生前提前给出修正策略。这两套机制分别对应毫秒级反应与接触状态前瞻，在同一任务中协同工作。戴盟方面介绍，这是他们相比纯视觉操作模型最为关键的结构性差异。

具身触觉派

“触觉”，是戴盟身上一个鲜明的技术标签。他们在阐述自身技术路线时强调，不能仅将触觉视为机器人身上的辅助传感器。在他们看来，触觉贯穿了机器人操作的感知、决策、控制三个层面——（触觉）是Physical AI理解真实世界的核心入口。

原玮浩解释道，视觉和语言都是真实物理世界的低维映射，要让机器人真正理解物理世界，必须引入触觉这类原生物理模态。这也是戴盟将触觉置于战略核心的原因。物理世界中，许多决定成败的信息只有在接触后才会显露——物体的软硬程度、表面光滑还是粗糙、抓握时的正压力和切向力分别为多少，这些信息单靠视觉很难稳定推断。

“只有引入触觉模态，才能让语言和视觉真正具备物理意义，才能使模型真正理解并操作物理世界。”原玮浩表示。

从行业视角来看，这也是当前具身智能技术路线分化的一个缩影。一部分公司持续提升机器人的视觉理解与动作规划能力；另一部分公司强化本体、灵巧手及执行器；还有一部分公司则瞄准真实接触场景中的数据缺口。戴盟致力于补齐机器人与物理世界接触时缺失的关键信息，属于后者阵营。

但触觉路线同样面临自身的硬性成本。

为触觉Scaling Law铺路

最为棘手的便是数据问题，主要集中在两个难点上。

第一是规模化采集。触觉数据并非越多越好，关键在于是否足够全面。让机器人在1000种不同材质、不同形状、不同接触方式的物体上各接触10次，往往比在同一个杯子上反复抓取1万次更具价值——因为模型需要学习的是物理规律，而非对某个单一物体的操作记忆。

第二是多模态对齐。当机器人手指触碰物体时，触觉传感器需记录压力分布与纹理信息，摄像头需记录图像，控制系统需记录关节角度与力矩。这些数据必须在毫秒级时间尺度上严格同步，否则模型学到的因果关系可能出错。例如，明明是手腕先动导致物体形变，模型却可能误判为物体先发生了变化。

为解决这一问题，戴盟搭建了外发式数据采集网络，将标准化采集模组部署到产业合作方的实际场景中，让真实操作场景成为数据来源。今年4月，戴盟联合Google DeepMind等全球数十家机构发布了Daimon-Infinity，官方称这是全球规模最大的含触觉全模态具身数据集。

此外，原玮浩还透露，尽管目前触觉Scaling Law的曲线尚未被完整绘制出来，但戴盟坚信其存在。之所以尚未涌现，很大程度上是因为行业缺乏公认的评估标准。为此，戴盟已采取行动——近日，戴盟与银河通用联合推出了RobOmni，这是行业内首个同时支持真实数据训练与仿真训练的含触觉全模态物理交互评测基准。唯有先建立公认的标尺，讨论Scaling才有实际意义。

来源：https://www.qbitai.com/2026/06/428778.html

世界模型

延伸阅读

补充最近整理过的热点入口。