前苹果AI负责人回国加入具身大模型赛道

时间：2026-07-01 10:54

具身智能赛道上的技术路线之争，最近又添了一个新变量。 6月底，一家名叫RoboScience机器科学的公司，发布了一个通用具身大模型Visics，以及背后的技术架构VLOA（Vision-Language-Object-Action）。发布会上，他们现场演示了机器人完成家具拼装——这可以说是目前具身

具身智能赛道上的技术路线之争，最近又添了一个新变量。

6月底，一家名叫RoboScience机器科学的公司，发布了一个通用具身大模型Visics，以及背后的技术架构VLOA（Vision-Language-Object-Action）。发布会上，他们现场演示了机器人完成家具拼装——这可以说是目前具身操作里最复杂的任务之一了。顺带一提，这家公司去年底才成立，创始人是前苹果AI平台技术负责人田野和新加坡国立大学助理教授邵林。成立不到半年，融资已经拿到手软：今年5月刚完成10亿元A轮，累计融资数十亿，投资方包括零一创投、京东、招商局创投等一长串名单。

目前具身智能领域的主流技术路线有两条。一条是VLA（视觉-语言-动作），核心思路是让机器人通过大量人类示教数据模仿学习动作。好处很明显——能直接理解自然语言，训练流程也相对成熟。但代价是高度依赖跟具体硬件绑定的真机，换个物体基本就得重新训练。另一条是世界模型：先让机器人学会预测环境里物体在物理世界中将怎么变化，再根据预测推导动作。相当于动手之前，先在脑子里预演一遍后果。这条路泛化能力理论上更强，但训练成本更高，工程难度也大不少。

RoboScience机器科学提出的VLOA架构，说白了就是在视觉-语言和动作之间加了一个“O”——物体轨迹（Object Trajectory）。

田野在采访中解释过，具身智能的复杂性在于要同时覆盖三个维度的多样性：任务类型、物体属性、机器人构型。没有一个统一的格式把这三者都装进来，模型很难真正通用——就像大语言模型里的Token一样。在他看来，物体的动态轨迹就是具身智能领域的“Token”：它描述的是被操作物体在三维空间中的位置和形态变化。和VLA天生跟硬件绑定不同，这条路线从训练一开始就跟硬件解耦，只关注物体本身怎么变，不受机器人本体、任务类型、环境的限制，泛化能力天然更强。

Visics大模型由两部分组成：一个是具身世界模型，输入视觉画面和语言指令后，先推演物体移动的路线；另一个是通用操作模型，把推演结果翻译成不同机器人能听懂的具体指令。两者之间用物体的连续3D点云轨迹连接起来。逻辑很简单：数据决定了模型能力的上限，而架构设计，决定了模型到底能学到什么。

在具身智能真正大规模落地之前，几乎所有厂商都被同一个问题卡住：训练数据从哪来。

RoboScience机器科学执行总裁汪涛算过一笔账：具身智能所需的数据量不会低于语言大模型，但全球机器人真机数据积累量，比大语言模型训练数据量少了10的6次方到8次方倍。很多厂商认为只有靠海量的真实物理交互数据，才能训出可落地的机器人。所以过去几年，大家都在重金投入真机数据采集——素材工厂、动作捕捉设备，能上的都上了。

但问题在于，现有真机数据采集方式，每条数据成本大概几块钱，一个人一天最多采几百条，全行业月产能也就万条级别。尤其是到了后训练阶段，单任务复杂操作演示需要上万条人工标注数据，人力与时间成本随任务数量线性累加。更要命的是，数据工厂里采集的数据跟真实应用场景之间存在分布差异，模型到了实际环境里很难稳定泛化。

RoboScience机器科学选了条截然不同的路。

既然预训练阶段需要的数据必须既多样又海量，真实环境里根本拿不到，那干脆就在预训练环节靠互联网视频和自研仿真引擎RoboMirage生成数据。先达到优秀水平，再进入真实场景。真机数据反倒更多用在具体场景的后训练上，用来补足预训练阶段覆盖不了的高难度失败案例。

据汪涛测算，这套数据生产流程只跟算力挂钩，不依赖人力，单条数据成本可以降到几分钱——传统方案的1/20到1/200。而且理论上加GPU就能扩大产能，没有上限。目前，RoboScience机器科学积累的视频数据已经到数百万小时，仿真操作轨迹数据达十亿到百亿次级别。今年的目标是视频数据超千万小时、仿真数据达到万亿次级别。

发布会上有个让人印象深刻的演示：机器人自己读宜家说明书，完成家具拼装。过程中哪怕人为拆掉已经装好的部件，机器人也能自动恢复并接续完成。此外还能打领带、立硬币、开信封、抓薯片和蛋壳。值得一提的是，打领带这个任务就是完全基于仿真数据训练出来的。

行业里现在有一种共识：2026年不会是具身智能的“ChatGPT时刻”。越来越多厂商不再追求全场景泛化，而是聚焦特定场景，先跑通商业模式，再逐步扩展边界。某种程度上，RoboScience机器科学选择了相反的方向——先做相对通用的基座模型，再用场景去验证和反哺。

田野觉得，基座模型迭代和场景落地这两件事不完全冲突，但场景选择会决定未来的技术路线。选狭窄场景容易导向小数据、小模型的过拟合方案；而选泛化要求高的场景，反而会倒逼基座模型持续迭代。所以RoboScience机器科学从一开始就由场景牵引训练模型，让模型具备相对通用的泛化能力。同时，他们也在自研机器人本体，让本体跟场景深度耦合。

基座模型再怎么迭代，最终还是要回到商业化落地上。目前RoboScience机器科学主要有三条商业化路径：一是以License形式对外授权纯软件能力，已经产生一定收入，客户主要是机器人本体公司和已有机器人的场景方或集成商；二是提供搭载自研大模型的域控制器，服务工业机械臂或协作臂；三是自有机器人本体，目的是把商业和数据链条彻底闭环。汪涛表示，具体落地上会从物流、商超、零售这类行业切入——这些场景最能体现公司技术相对传统非标自动化方案的优势，也能较早实现商业化。至于什么时候盈利，他认为需要从模型和硬件两个层面一起降本，规模做大后才更有机会。

下一个考验是8月即将发布的自研机器人本体。到时候，VLOA架构能不能在真实场景中跑出预期中的泛化能力，将是检验这套技术路线成色的第一块试金石。

来源：https://www.jiemian.com/article/14672678.html

大模型

上一篇继天涯重启后，老牌论坛西祠胡同也将回归 下一篇字节跳动一季度辞退80人，超半数涉信息安全违规

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-01

宇树验证具身智能新趋势核心战场不止于模型

具身智能领域的竞争，正步入一个全新的发展阶段。近日，宇树科技正式发布了其WVLA2 0具身大模型，并公开展示了无需远程遥操的实机演示。这一举动向业界释放了一个明确信号：当前这场竞赛的核心壁垒，或许已不再是谁拥有更大的模型参数，而是谁的架构设计更为精巧、谁能更深度地实现软硬件一体化、谁能积累更海量的实

科技数码 · 2026-07-01

智元精灵G2机器人产线直播完成64828件成功率99.99%

99 99%的任务成功率——这是智元机器人在6月23日至28日期间，将精灵G2机器人直接部署到真实的平板量产质检产线，并全程公开直播后，交出的最具说服力的答案。让我们关注这场直播的硬核数据：连续64小时不间断作业，产线累计完成17625件产品检测，机器人累计执行64828次操作，任务成功率精确达到

科技数码 · 2026-07-01

纯电动Cayenne首秀保时捷驾驶中心全国路演

保时捷正在加速推进其电动化转型战略。继纯电动Cayenne与Gen 3 Evo赛车在三亚街道赛共同亮相后，仅过了一周时间，这款全新纯电SUV便驶入中国专业赛道场景——这一次，地点换成了永久性专业赛道。回顾2026年北京车展，保时捷首款纯电动Cayenne Turbo正式首发并公布了售价。新车提供两

科技数码 · 2026-07-01

AI工具能否成为高价志愿咨询纠纷的破局之道

广东高考成绩公布后，志愿填报这场“第二次大考”随即全面开启。对众多家庭而言，这或许比高考本身更令人心力交瘁——时间紧迫、信息庞杂、选项繁多，每一步都如履薄冰。教育部近日发布预警，严厉批评那些漫天要价的“志愿规划师”，直言其本质上就是忽悠。然而每年踩坑的案例仍屡见不鲜，网上信息真假混杂，不同机构给出的

科技数码 · 2026-07-01

头部企业全产业链布局锂电池回收循环

近年来，伴随新能源汽车产业的爆发式增长，早期投入使用的动力电池正迎来集中退役高峰，锂电池回收行业因此进入一个至关重要的“窗口期”。这些退役电池中富含锂、钴等珍贵金属资源——尤其是被誉为“白色石油”的锂，正从地下矿藏逐渐转向我们身边的“城市矿山”，从“一次性使用”的线性消耗模式，迈向“循环再生”的可持