2025年深圳国际人工智能展览会上,一台名为“小量”的机器人正有条不紊地忙碌着:精准地拿起杯子,熟练地接取冰块,细致地添加各类小料,整个过程一气呵成,短短两分钟就端出一杯色泽诱人的果味冰沙。周围人群的惊叹声此起彼伏,但真正让人瞩目的,是这台机器人背后的那股力量——2023年12月才成立的深圳初创公司自变量机器人。这家公司成立时间虽然不长,却已经成功拿下了8轮融资,累计金额超过20亿元,成了具身智能赛道上一匹耀眼的“黑马”。而这一切的背后,离不开阿里、美团等巨头的鼎力支持,以及一位清华学霸多年坚守的机器人梦想。

在自变量机器人创始人兼CEO王潜的蓝图里,单点任务不过是通用机器人走向广泛应用的一个小小开端,他真正的目标,是让通用机器人真正走进千家万户,成为人们生活中不可或缺的一部分。
初心:跨界逐梦的机器人情怀
王潜身上,有一种典型的清华气质:理性、执着,对技术的发展方向有着近乎偏执的笃定。他本硕均毕业于清华大学,是全球最早将注意力机制引入神经网络的学者之一。他的相关研究成果,和Google在该领域的首篇论文一并登上了顶级会议,后来更成了Transformer架构的核心,为现代大模型技术奠定了坚实基础。
在美国南加州大学攻读博士期间,王潜把研究重心转向了自己热爱的机器人领域。他在顶级机器人实验室潜心钻研多年,深度参与多项机器人学习与人机交互研究。这段经历让他深刻认识到传统机器人技术的诸多局限,也让“打造通用机器人”这个想法在心里扎根。
博士毕业后,王潜曾在美国创办量化基金公司,事业发展得顺风顺水。然而,内心深处那份对机器人的热爱从未消减,“晚上经常睡不着,满脑子都是做机器人的想法”成了他当时生活的真实写照。2023年,大语言模型技术迎来突破性进展,王潜敏锐地捕捉到机器人行业的历史性机遇,果断解散基金,回国创业。
这一决定并非一时冲动。在他看来,中国在硬件制造和供应链领域具备全球领先优势。“美国硬件人才大多被大公司的‘金手铐’束缚,而中国供应链的优势可能领先美国一个数量级。”更关键的是,中国的数据收集成本仅为美国的十分之一,这为具身智能的研发提供了核心支撑。

2023年12月18日,王潜刚到深圳,自变量机器人就正式成立了。这座充满创新活力的城市,其完善的产业生态让他深受震撼。“实验室里机器人所需的硬件及零配件,大多产自深圳,在这里两天甚至半天就能配齐所有零部件。”深圳强大的“产业磁场”,成了他实现梦想的理想土壤。
孤勇:坚守端到端路线的突围
自变量机器人从成立之初,就走了一条与众不同的技术路线——“大小脑统一的端到端大模型”。这个选择在当时备受争议,甚至遭到业内专家的直接质疑。
多年前,当王潜第一次提出端到端思路时,一位知名机器人教授当面泼了冷水:“端到端虽然很有意思,但可能永远只是个玩具,难以真正落地。”面对质疑,王潜始终坚持自己的信念,因为他深知传统技术的瓶颈。
所谓端到端模型,和传统分层架构有本质区别。传统模式把任务拆成感知、规划、控制等多个独立模块,各管各的;而端到端模型则通过统一架构,实现从感知、规划到控制的全流程闭环。“分层模型每多一步拆解,就会引入额外的误差和不可控噪声,难以实现可靠执行。端到端统一模型能在‘感知—决策—执行’全流程保持连续性,从根本上解决这个问题。”王潜这样解释。
自变量的技术理念可以概括为“纵向统一”和“横向统一”:纵向实现从视频、传感器原始输入到机器人运动输出的整个流程由同一模型处理;横向让不同任务共用一个模型,训练与推理都在统一架构下完成。这一理念在WALL-A模型上得到了充分验证,该模型让机器人仅用二指夹爪,就能轻松完成拉拉链、叠衣服、浇花等复杂操作,数分钟级任务成功率超过95%。
突破:从模型迭代到场景验证
自变量机器人的产品演化轨迹,清晰地印证了其技术路线的正确性。成立仅两个月,公司就成功研发出第一版具身智能操作模型,能完成切菜、倒水等复杂操作;2024年底,更发布了全球最大参数规模的具身智能通用操作大模型——Great Wall系列WALL-A模型,实现了三大核心突破。
其一,多模态信息融合,能整合感知数据、自然语言指令与运动控制信号,实现输入到输出的端到端映射;其二,已展现出零样本泛化能力,部分从未见过的新任务场景中无需重新训练即可适配,这是通用机器人的关键标志;其三,在动态环境感知、实时任务规划和超长程任务上取得突破,能完成拉拉链、扣扣子、挂衣服这类长序列复杂操作。
定力:坚持真机数据路线
在数据策略上,自变量机器人坚持“高质量真机数据”路线,与行业内依赖仿真数据或互联网视频数据的做法截然不同。王潜态度很坚决:“所有涉及复杂物理交互的操作——比如接触丰富的手部操作——不应完全使用仿真数据。我们探索了十几年,结论是手部复杂操作无法通过仿真数据进化。”
公司构建了多渠道数据收集体系:集中式数据采集场地、分布式现实环境收集、机器人部署后的数据回流,从三个维度保障数据质量,为模型训练提供坚实支撑。王潜把泛化能力分成四个层次:基础条件泛化(适应光照、物体位置变化)、跨环境泛化(从一个场景扩展到多场景)、对象层面泛化(对没见过的同类物体完成任务)、任务泛化(探索解决未学习过的任务)。目前,自变量模型在前三个层次已经展现出优异的通用性。
引力:20亿融资背后的巨头布局
自变量机器人在资本市场的表现堪称惊艳:成立不到两年完成8轮融资,累计金额超过20亿元。2025年9月,公司宣布近10亿元A+轮融资,由阿里云、国科投资领投,国开金融、红杉中国等跟投,老股东美团、联想之星等追投。值得注意的是,这是阿里云首次布局具身智能领域,也是美团第二次加注。
阿里、美团、京东三大巨头在具身智能领域的布局逻辑差异很明显。阿里投资数量最多,已布局10家相关企业,核心逻辑是通过云计算和大模型扩展AI应用边界,构建具身智能技术生态;美团布局更早更全,从物流、配送机器人到大模型、AI芯片,覆盖上下游全链条;京东虽然起步较晚,但节奏迅猛,4个月内投资6家企业,聚焦零售、物流、家庭三大垂直场景,打造场景导向的技术生态。
路径:从To B切入,剑指家庭市场
面对具身智能领域备受争议的商业化问题,王潜有着清晰的规划。他坚信“家庭是机器人最大市场,预计3-4年会出现早期产品”。经济学测算显示,人类家务劳动占比高达四分之一却未计入GDP,这意味着家庭机器人市场潜力巨大,甚至有望超越工业及其他场景。
自变量机器人的商业化路径确定为“To B切入,逐步延展至To C”。王潜表示,2025年公司将在多个功能性场景实现商业化落地,让机器人在开放、随机场景中自主完成复杂操作。对于部分企业把人形机器人送进工厂从事简单重复工作的做法,他直言“那其实就是PR行为”,强调真正有价值的商业化,必须依赖具身智能模型泛化能力的提升。
价格方面,王潜预测,消费者可接受、产业链能支撑的价格区间大约在1-2万美元(折合软妹币10万元上下),目前还需要通过产业链优化来降低成本。他同时预判,类GPT-3水平的具身智能大模型有望在一年内出现,而人形机器人的“ChatGPT时刻”则需要3-5年。
远方:挑战中构建生态闭环
尽管自变量机器人已经取得了显著进展,但王潜仍然清醒地认识到,通用机器人之路充满挑战。他指出,目前限制机器人产业化的核心是“大脑”而非硬件:“展馆里不乏运动能力出色的机器人,但它们提供的实用价值有限,更多是形式价值。”
面对挑战,自变量机器人正在积极构建具身智能生态。2025年9月,公司在合肥发布了《具身智能生态建设计划》,依托自研具身基础模型,打造全球具身智能创新与产业核心枢纽;此前,还开源了端到端具身智能基础模型WALL-OSS,这是全球首个面向物理世界交互、具备落地能力的开源端到端具身智能基础模型。
对于长远发展,王潜明确了“软硬一体”的商业模式:“机器人无法复制Windows或Android的模式,需要软硬件高度耦合,软硬一体是最合理的选择。”
2025年世界机器人大会上,搭载WALL-A模型的“量子1号”机器人自如地完成制作香囊、整理客厅等复杂任务,引来现场观众驻足关注。身高172cm、拥有62个自由度的“量子2号”,展现了全栈自研硬件的实力。王潜站在展台旁,冷静观察着一切,脸上并没有太多波澜——对他而言,展台上的掌声只是前进路上的小小点缀,那个让通用机器人走入千家万户的梦想,正以“深圳速度”一步步从蓝图变为现实。
