先说几个核心判断:AI的发展路径有一个清晰的脉络——先走专用化,再迈向通用化,最后在通用能力的基础上,切入那些最具价值的细分场景。
回头看上一波AI浪潮就很清楚。那时候搞人脸识别、语音转录,每做一个新任务就得重新训练一个专有模型,费时费力。可现在呢?一个通用全模态模型就能搞定各种复杂活儿。如果再针对医疗、法律、客服这类垂直场景做一轮后训练,效果更是出彩。
物理AI这块儿,差别就更大了。上一代的工业机器人、清洁机器人,基本只能在布置好的场景里按部就班地干活,根本没法灵活应对通用场景。尤其是一些非常规环境中的复杂任务,它们完全束手无策。所以你看,让家用人形机器人真正走进生活,还得等不少时日。
不过风向在变。已经有一批具身智能公司开始推动物理AI走向通用时代,Skild AI就是其中一个代表。这家公司打造了一个叫Skild Brain的"全具身"大脑。按照他们的设想,这个大脑可以装在任何形态的机器人上,任意的任务都能干,让机器人真正拥有跨任务、跨硬件形态的通用泛化能力。

来源:Skild AI
从融资节奏上也能看出市场对这条路的认可。2024年,Skild AI刚拿了3亿美元A轮融资,转眼到了2025年,又搞定了14亿美元的B轮。这轮由SoftBank领投,NVentures (NVIDIA)、Macquarie Capital还有Jeff Bezos都跟了进来,直接把公司估值推到了140亿美元以上。Lightspeed、Felicis、Coatue、Sequoia Capital这些头部VC,以及LG、Schneider、CommonSpirit、Salesforce Ventures等战略投资者,也都在里面。
全具身智能,同一个大脑适应任何硬件形态,任何任务
Skild AI的两位创始人——CEO Deepak Pathak和总裁Abhina v Gupta,过去十年在机器人领域做出了不少突破性的成果,两人论文引用量加在一起超过11万次。Deepak Pathak是CMU机器人研究所的助理教授,Abhina v Gupta是终身教授,也是FAIR Robotics的创始成员和研究负责人。两人相识十年之后,在2023年双双从CMU离职,一起投身具身智能创业,拉起了一支由Meta、Tesla、NVIDIA、Amazon、Google以及CMU、斯坦福、UC Berkeley等高校的机器人和AI专家组成的顶尖团队。

Skild AI核心团队(来源:Skild AI)
上一代机器人公司,惯用的思路是定制化解决方案——给一台机器写一套专属程序,让它做好一件事。但这个路子没法泛化。Skild AI的想法完全不一样:他们要做的是面向真实世界的通用人工智能,他们的机器人大脑Skild Brain,必须具备跨任务、跨机器人硬件的泛化能力。
这个大脑有一个很关键的特性:它不需要事先知道机器人长什么样,就能直接控制。四足机器人、人形机器人、桌面机械臂、移动操作机器人,都能上手。从刷碗、煎蛋、收拾屋子这种居家杂活儿,到在湿滑地形上稳住走这种高难行动,只要是能动的机器,Skild Brain就能驱动。这种跨形态的训练,不仅让数据来源大大拓宽,也让模型在面对硬件变更或故障时,表现得更皮实。
基于视觉的端到端运动控制
造机器人基础模型,最大的拦路虎就是数据太少。更麻烦的是,靠真实硬件去采集数据,又慢又贵。
有些公司的做法是拿现成的视觉-语言模型 (VLM),往里掺一点真实机器人数据(还不到1%),然后管这个叫"机器人基础模型"。但这么搞出来的模型,缺乏真正经过物理世界验证的常识,放到真实环境里就容易露怯。翻个后空翻、跳个舞倒是利索,可你让它正儿八经爬一段楼梯,或者绕过一堆高难度障碍物,它就含糊了。
问题的关键在于,爬楼梯这种动作,对视觉感知和运动控制的协同要求极高。机器人得和楼梯的物理结构精确互动,还要根据台阶高度、几何形状的差异随时调整动作。
Skild Brain采用了一套分层架构:上层负责低频的操作与导航策略,下层是高频响应的底层动作策略。作为核心驱动力,底层的单一神经网络能把上层的宏观指令,实时转化成精确的关节角度和电机扭矩。有了这个设计,机器人不再需要繁琐的路径规划、建图或者手动切换模式,在平地走、爬楼梯、绕障碍之间,可以行云流水般地自然切换。本质上,这是完全由在线视觉和本体感觉驱动的端到端运动控制。
真实世界的部署对可靠性要求极高。Skild在验证模型时,直接把机器人带进了城市公园、街道,让它爬防火梯、翻各种障碍,环境里还包括不稳定的托盘、缝隙、高低不平的台阶和杂物。

来源:Skild AI
Skild Brain依靠摄像头捕捉图像,对机器人周围的环境做毫秒级的动态反应。这意味着它可以根据最新的观测结果,顺势适应新地形。用户(或者Skild Brain上层的策略模块)只需要给一个大致方向,机器人自己就能摸索着避障。面对一个从来没见过的环境,它不需要什么预设动作,就能实时调整落脚点、平衡和时机,灵活应对各种未知障碍。
举个例子,装上了Skild Brain的机器人,在面对深浅不一的台阶时,哪怕台阶深度只比机器人的脚长多出3厘米,它也能把脚稳稳地落在正确位置上。更厉害的是,机器人还可以在非平坦表面上负重,比如搬着箱子上上下下跑楼梯。
要让机器人适应真实环境、具备通用性,就必须打破过去那种"一个控制器只针对一款机型"的训练模式。那种做法说白了就是让机器人死记硬背,针对特定场景和环境过度拟合。
所以,Skild给Skild Brain设计了一个不可能投机取巧的测试环境,还用了特殊的训练方法。
方法一是让AI学习控制一个包含各种不同身体的"机器人多重宇宙"——里面至少有10万种不同形态的机器人,而不是只盯着一种机型。这样的话,它就没办法死记硬背一个针对某一款身体的"标准答案",必须去找一种通用的生存策略。
方法二是让模型在失败里学东西。Skild把大语言模型里的"上下文学习" (In-context learning) 搬到了物理AI领域,这很可能是通用性的一个基础能力。
具体操作上,Skild让机器人去面对各种奇奇怪怪的状况。比如截掉机器人的小腿,只保留大腿部分,模拟肢体缺失;用软件把机器人的膝关节锁住,模拟关节故障;毫无征兆地卡死机器人轮子;再或者给机器人腿上装一对高跷,让腿身比完全超出训练时的认知范围。
面对这些状况时,Skild Brain驱动的机器人,在经过短暂的适应之后,就能自己找到解决办法。
拿模拟关节故障来说,等于把一个四足机器人变成了一个从来没被训练过的"三足"机器人。一开始机器人往前栽,但很快它学会了把重心挪到剩下的三条腿上,经过2-3秒的适应,甚至能迈开腿走起来。
可以这么理解:模型在碰到陌生的状况后,会一遍遍尝试,然后把前一次的尝试结果当作"提示词" (prompt) 输入,直到成功适应新环境。使用了"上下文学习"训练后,模型就能做到零样本运动控制,甚至适应极端的形态变化。
Skild的数据飞轮
Skild搭建了庞大规模的数据基础设施,Skild Brain可以从四大来源持续学习。
在预训练阶段,它从大规模仿真数据和互联网视频里学东西。通过看人类视频来学习,是解决具身基础模型数据规模和数据多样性不足的一个重要途径。第一人称视角的头戴式摄影机画面,互联网上多的是,但这些视频并非"机器人原生"的格式。
用视频数据训练机器人,存在两个麻烦:一是信号缺失,视频里看不到底层的力、扭矩或者触觉反馈;二是具身鸿沟,人的肢体和机器人的形态差异太大,把人类动作映射成机器人的驱动指令,好比是拿着两种不同的语言做翻译,挑战巨大。
Skild的模型有一个核心能力:它可以跨越具身差异去理解动作。这让机器人可以直接从视频演示里学会新技能。实验中,只需要让机器人看一些视频,再加上不到1小时的机器人数据,就能对模型进行微调,让它掌握新技能。
到了后训练阶段,则有遥操作和真实世界部署两条路。Skild的机器人已经广泛部署在安防、建筑、配送、数据中心、仓库还有工厂组装等多个领域。这些部署反过来又产生了更多数据,持续为后训练注入动力。
到了2025年,Skild AI的营收已经有了实质性增长。他们在点对点配送、安防、数据中心还有制造业仓库等场景落地机器人,短短几个月,营收就冲到了3000万美元。当然,他们心里最挂念的终极场景,还是家庭消费级市场。
跨越通用性鸿沟,物理AI创造的价值将指数级提升
站在今天回看,大语言模型已经跨过了通用性的那道坎儿,有了ChatGPT这样用户量过亿的标志性消费级应用,也开始在千行百业里创造价值。
具身模型这边,现在也正在跨越通用性门槛。Skild AI已经初步做出了一个能够跨机器人形态、适应各种任务的具身基础模型。而且,通过把"上下文学习"引入物理AI,他们降低了各类机器人在学习新技能和新任务上的成本,也降低了进入新场景的门槛。
当然,不管是具身基础模型还是大语言模型,都还面对一个共同的痛点:它们没法通过自己学习来实现自我迭代。每一次大的升级,都得把模型重新训练一遍。这个迭代成本下不来,导致AI和移动互联网时代比起来,商业模式不太容易成立。
尽管如此,还是值得期待"物理AI"智能在未来进入成熟期,追上大语言模型的节奏。一旦走到那一步,物理AI的应用边界将被大幅拓宽,创造的价值也会指数级地往上翻。
