具身智能赛道上的技术路线之争,最近又添了一个新变量。
6月底,一家名叫RoboScience机器科学的公司,发布了一个通用具身大模型Visics,以及背后的技术架构VLOA(Vision-Language-Object-Action)。发布会上,他们现场演示了机器人完成家具拼装——这可以说是目前具身操作里最复杂的任务之一了。顺带一提,这家公司去年底才成立,创始人是前苹果AI平台技术负责人田野和新加坡国立大学助理教授邵林。成立不到半年,融资已经拿到手软:今年5月刚完成10亿元A轮,累计融资数十亿,投资方包括零一创投、京东、招商局创投等一长串名单。
目前具身智能领域的主流技术路线有两条。一条是VLA(视觉-语言-动作),核心思路是让机器人通过大量人类示教数据模仿学习动作。好处很明显——能直接理解自然语言,训练流程也相对成熟。但代价是高度依赖跟具体硬件绑定的真机,换个物体基本就得重新训练。另一条是世界模型:先让机器人学会预测环境里物体在物理世界中将怎么变化,再根据预测推导动作。相当于动手之前,先在脑子里预演一遍后果。这条路泛化能力理论上更强,但训练成本更高,工程难度也大不少。

RoboScience机器科学提出的VLOA架构,说白了就是在视觉-语言和动作之间加了一个“O”——物体轨迹(Object Trajectory)。
田野在采访中解释过,具身智能的复杂性在于要同时覆盖三个维度的多样性:任务类型、物体属性、机器人构型。没有一个统一的格式把这三者都装进来,模型很难真正通用——就像大语言模型里的Token一样。在他看来,物体的动态轨迹就是具身智能领域的“Token”:它描述的是被操作物体在三维空间中的位置和形态变化。和VLA天生跟硬件绑定不同,这条路线从训练一开始就跟硬件解耦,只关注物体本身怎么变,不受机器人本体、任务类型、环境的限制,泛化能力天然更强。
Visics大模型由两部分组成:一个是具身世界模型,输入视觉画面和语言指令后,先推演物体移动的路线;另一个是通用操作模型,把推演结果翻译成不同机器人能听懂的具体指令。两者之间用物体的连续3D点云轨迹连接起来。逻辑很简单:数据决定了模型能力的上限,而架构设计,决定了模型到底能学到什么。
在具身智能真正大规模落地之前,几乎所有厂商都被同一个问题卡住:训练数据从哪来。
RoboScience机器科学执行总裁汪涛算过一笔账:具身智能所需的数据量不会低于语言大模型,但全球机器人真机数据积累量,比大语言模型训练数据量少了10的6次方到8次方倍。很多厂商认为只有靠海量的真实物理交互数据,才能训出可落地的机器人。所以过去几年,大家都在重金投入真机数据采集——素材工厂、动作捕捉设备,能上的都上了。
但问题在于,现有真机数据采集方式,每条数据成本大概几块钱,一个人一天最多采几百条,全行业月产能也就万条级别。尤其是到了后训练阶段,单任务复杂操作演示需要上万条人工标注数据,人力与时间成本随任务数量线性累加。更要命的是,数据工厂里采集的数据跟真实应用场景之间存在分布差异,模型到了实际环境里很难稳定泛化。
RoboScience机器科学选了条截然不同的路。
既然预训练阶段需要的数据必须既多样又海量,真实环境里根本拿不到,那干脆就在预训练环节靠互联网视频和自研仿真引擎RoboMirage生成数据。先达到优秀水平,再进入真实场景。真机数据反倒更多用在具体场景的后训练上,用来补足预训练阶段覆盖不了的高难度失败案例。
据汪涛测算,这套数据生产流程只跟算力挂钩,不依赖人力,单条数据成本可以降到几分钱——传统方案的1/20到1/200。而且理论上加GPU就能扩大产能,没有上限。目前,RoboScience机器科学积累的视频数据已经到数百万小时,仿真操作轨迹数据达十亿到百亿次级别。今年的目标是视频数据超千万小时、仿真数据达到万亿次级别。
发布会上有个让人印象深刻的演示:机器人自己读宜家说明书,完成家具拼装。过程中哪怕人为拆掉已经装好的部件,机器人也能自动恢复并接续完成。此外还能打领带、立硬币、开信封、抓薯片和蛋壳。值得一提的是,打领带这个任务就是完全基于仿真数据训练出来的。
行业里现在有一种共识:2026年不会是具身智能的“ChatGPT时刻”。越来越多厂商不再追求全场景泛化,而是聚焦特定场景,先跑通商业模式,再逐步扩展边界。某种程度上,RoboScience机器科学选择了相反的方向——先做相对通用的基座模型,再用场景去验证和反哺。
田野觉得,基座模型迭代和场景落地这两件事不完全冲突,但场景选择会决定未来的技术路线。选狭窄场景容易导向小数据、小模型的过拟合方案;而选泛化要求高的场景,反而会倒逼基座模型持续迭代。所以RoboScience机器科学从一开始就由场景牵引训练模型,让模型具备相对通用的泛化能力。同时,他们也在自研机器人本体,让本体跟场景深度耦合。
基座模型再怎么迭代,最终还是要回到商业化落地上。目前RoboScience机器科学主要有三条商业化路径:一是以License形式对外授权纯软件能力,已经产生一定收入,客户主要是机器人本体公司和已有机器人的场景方或集成商;二是提供搭载自研大模型的域控制器,服务工业机械臂或协作臂;三是自有机器人本体,目的是把商业和数据链条彻底闭环。汪涛表示,具体落地上会从物流、商超、零售这类行业切入——这些场景最能体现公司技术相对传统非标自动化方案的优势,也能较早实现商业化。至于什么时候盈利,他认为需要从模型和硬件两个层面一起降本,规模做大后才更有机会。
下一个考验是8月即将发布的自研机器人本体。到时候,VLOA架构能不能在真实场景中跑出预期中的泛化能力,将是检验这套技术路线成色的第一块试金石。
