韩国物理AI获4180万美元融资视频预训练技术落地路径解析_AI热点日报

韩国物理AI获4180万美元融资视频预训练技术落地路径解析

类型：热点整理2026-05-26

2026年，全球具身智能赛道的热度不减，但关于其核心技术——视频预训练——的商业价值，争论也从未停歇。一边是资本持续涌入，另一边则是质疑声不断：依赖互联网视频训练机器人，究竟是通往未来的捷径，还是阶段性的技术噱头？最近，韩国初创公司RLWRLD的一笔融资，为这场争论提供了一个极具象的观察样本。这家

2026年，全球具身智能赛道的热度不减，但关于其核心技术——视频预训练——的商业价值，争论也从未停歇。一边是资本持续涌入，另一边则是质疑声不断：依赖互联网视频训练机器人，究竟是通往未来的捷径，还是阶段性的技术噱头？

最近，韩国初创公司RLWRLD的一笔融资，为这场争论提供了一个极具象的观察样本。这家公司累计获得的种子轮融资达到了600亿韩元，约合4180万美元。对于一家仍处于早期技术打磨阶段的公司而言，这个数字相当亮眼。更值得玩味的是，本轮资金全部来自日韩的实体产业巨头，LG、SK、乐天、CJ物流、ANA航空等悉数入局。

产业资本用真金白银投票，往往代表着市场对技术落地前景最直接的判断。透过RLWRLD的发展路径，我们或许能更清晰地看到，视频预训练技术在不同场景下的适配逻辑，以及当前赛道中不同技术路线的真实价值所在。

从落地实践，看懂视频预训练的场景分层逻辑

过去，行业对视频预训练的讨论常常陷入非此即彼的二元论：要么是碘伏性的，要么就是炒作。而RLWRLD的实践，则揭示了这条赛道的分层特征。实际上，主流的视频训练方式已经分化出两种截然不同的形态，分别适配不同的发展阶段和商业场景。

目前，国内不少具身智能初创公司普遍采用第一种方式：抓取全网公开的短视频进行模型预训练。海量的生活、居家甚至工业片段唾手可得，数据规模庞大，能帮助模型快速建立起基础的视觉认知和动作理解。

这种方式优势明显，特别适合企业早期冷启动。团队无需投入高昂成本去采集真机数据，就能快速迭代模型，进行多场景测试和技术验证，效率很高。

然而，公开网络视频的“先天不足”也不容忽视。画面视角单一、光线条件多变、甚至人为摆拍都会引入大量数据噪声。更重要的是，这些视频记录的是人类基于骨骼和肌肉的动作，与机器人的机械结构、受力逻辑存在根本差异。因此，在要求高精度、高稳定性的工业场景中，这类模型的表现往往不尽如人意。

RLWRLD选择了另一条更“重”、也更贴近产业的道路。他们放弃了唾手可得的网络数据，转而深耕垂直实体场景。团队长期驻扎在酒店、物流仓库、便利店、航空后勤等一线岗位，通过穿戴设备全程记录在岗员工的标准操作流程。

这种实景采集方式费时费力，但其数据价值也显而易见：没有无关画面干扰，完全贴合真实的工作环境和作业规范。模型学习的，不再是网络上的碎片化信息，而是一线成熟岗位完整、连贯的操作逻辑。

这类数据，恰好精准匹配了服务业中大量重复性、标准化的细碎工作。基于此训练的机器人，无需大规模改造现场环境，也不用反复重新编程，就能快速承接分拣、整理、收纳等辅助类工作，落地门槛相对较低。

至此，两种模式的定位已然清晰：全网视频训练，擅长快速搭建模型认知、拓宽场景边界，是高效的“拓荒者”；而实景岗位视频训练，则专注于沉淀稳定、可付费、可量产的落地能力，是可靠的“深耕者”。场景的差异，直接决定了技术最终的落地效果和商业价值。

实景视频路线能够跑通的底层原因

一笔超过4000万美元的种子轮融资，背后恐怕不只是资本的情绪炒作。更合理的解释是，RLWRLD的这套落地模式，与日韩当前的产业现实高度契合，在需求、技术、生态和商业模式上，形成了一套自洽的闭环。

首要驱动力来自严峻的人口结构挑战。日韩社会的老龄化问题，已导致服务业大量基础岗位出现持续性用工缺口。

具体来看，酒店客房清洁、仓储分拣、商超理货、机场后勤辅助等岗位，普遍存在工作重复性高、附加值低、人员流动性大的特点，长期面临“招工难、留人难”的困境。传统的自动化设备刚性太强，无法适应服务业灵活、非标的工作场景，市场一直缺少一种低成本的柔性自动化解决方案。

RLWRLD的实景训练模式，恰好看准并填补了这一空白。用真实岗位数据“喂养”出来的机器人，天生适配线下环境，改造成本可控。对企业而言，这意味着可以用更具性价比的方式替代部分人力，付费意愿和落地需求都非常真实。

从技术层面看，实景视频训练有效规避了行业常见的“仿真到现实”的落地偏差问题。单纯依赖网络视频训练的模型，常常出现“眼睛学会了，手没学会”的尴尬，核心原因就在于人类动作与机械物理逻辑的不匹配。模型可能学会了动作的“形”，却难以掌握其背后的“力”与“规则”。

据了解，RLWRLD以原生作业视频为核心，同时结合力觉传感、运动轨迹等物理参数进行联合训练。这使得模型学习的是标准化、可复用的完整作业流程，而不仅仅是视觉表象。其结果就是作业稳定性大幅提升，减少了对人工远程干预的依赖，技术落地的可靠性更能满足产业端的严苛要求。

生态和商业模式的协同，进一步放大了其落地优势。观察其投资方名单不难发现，LG、CJ物流、ANA航空等都是拥有海量线下场景的产业巨头。它们不仅是财务投资者，更是战略合作伙伴，直接开放自有业务场景供其落地试点。这意味着RLWRLD从成立初期就拥有了稳定的数据来源和收入场景，形成了“落地-迭代-再落地”的正向循环。

此外，公司聚焦于算法“大脑”的研发，不涉足重资产的硬件制造，将资金和人力全部集中在模型优化与数据体系建设上。这种轻资产模式，也让其资金利用效率更高，商业化节奏更为稳健。

需求、技术、生态、模式的多重共振，使得这套深耕垂直场景的实景视频路线，在日韩市场跑通了一条可落地、可变&现、可持续迭代的商业路径。

重新审视技术选择与行业争议

RLWRLD的案例证明，视频预训练确实具备真实的产业价值。但市场对这条技术路线的认知，长期被另一种更轻量化、更低成本的范式所影响，从而产生了巨大的行业分歧。

与韩国企业深耕实景的路径不同，国内物理AI赛道的主流打法，是以全网公开视频预训练为核心底座。在这条路线上，千寻智能是成长最快、关注度最高，同时也是争议最集中的代表企业之一。

千寻智能由前珞石机器人CTO韩峰涛与伯克利背景的算法专家高阳联合创立，短短两年便跻身国内具身智能领域的头部阵营。其核心技术逻辑虽同属视频驱动的物理AI体系，但具体取舍与RLWRLD大相径庭。

千寻依托海量公开视频完成模型的通识预训练，再通过自研穿戴设备采集的工业遥操作数据进行场景微调。公司走的是软硬件全栈自研路线，自研人形机器人整机，重点瞄准国内动力电池、高端制造等工业场景。

一韩一中，一实景一全网，一纯算法一全栈硬件。这两条同源却反向的路径，恰好构成了审视当前视频预训练赛道的两个关键样本。结合国内产业环境来看，千寻智能的路线选择，有其深刻的本土化合理性。

中国制造业品类繁杂，场景高度碎片化，工厂需求普遍呈现“小批量、多品类、快迭代”的特征，缺乏统一的标准作业流程。如果照搬RLWRLD那种逐场景、逐岗位采集实拍视频的模式，成本将极其高昂，扩张速度也会非常缓慢，难以匹配中国工业市场的庞大体量和复杂需求。

因此，依托全网公开视频进行底层预训练，成为国内机器人企业性价比最高、扩张效率最快的冷启动方式。它能快速赋予模型通用的世界认知，以应对五花八门的非标工业场景，从而快速产出标杆案例。

同时，千寻并未完全依赖外部数据，而是通过自建真机数据体系来弥补场景偏差。叠加国内完善的机器人供应链优势，其全栈自研模式也为未来的硬件量产和成本控制预留了空间。

然而，对照RLWRLD那套成熟、稳定、可持续变&现的商业路径，千寻智能路线的短板也相当突出，这也是行业质疑声始终不断的核心原因。

首先，全网视频的数据属性，决定了其模型更擅长泛化试水和快速适配，却很难在单一行业沉淀出深度、标准化的作业能力。这直接导致了“试点项目多，规模化付费落地少”的现状，长期缺乏稳定的现金流支撑，高估值之下容易积累泡沫争议。

其次，外网视频自带的视角偏差、画面噪声以及人机躯体错位问题，是根植于数据源的“原罪”，难以彻底根除。在复杂的工业场景和高精度柔性作业中，机器人仍然需要较多的人工远程干预，其自主稳定性与实景训练路线相比存在明显差距。

最后，全栈自研模式意味着公司需要同时背负算法、硬件以及大规模数据团队的高昂成本，整体烧钱速度更快。而人形机器人整机的量产节奏通常偏于谨慎，商业化兑现周期更长。在当前资本市场整体趋于理性的背景下，公司后续需要拿出更快的落地成果来印证其技术价值。

来源：https://36kr.com/p/3824732997116163

ai

延伸阅读

补充最近整理过的热点入口。