机器人技术何时迎来ChatGPT式革命性突破
未来几十年,数十亿台自主运行的AI驱动机器人将与人类并肩工作——在工厂生产线上协作、在仓库执行重复性任务、照护老年人、在危险灾区提供援助、将包裹和食物送到家门口,最终还会进入我们的家庭提供帮助。有些机器人会像人类一样,但更多不会。可以确定的是,无论外形如何,机器人都将严重依赖AI才能创造真实世界的价值。

2025年,机器人公司的总投资达到了创纪录的407亿美元,占所有风险投资的9%。于是,一个价值数十亿美元的问题浮出水面:AI驱动的机器人要产生严肃的经济影响,究竟需要什么条件?如今,许多机器人和AI公司都在做出大胆的宣称,比如人形机器人很快就会进入千家万户。然而,承诺与现实之间,依然横亘着巨大的鸿沟。
与我们共同生活和工作的机器人,其承诺长期以来一直是科幻小说的素材。虽然无数程序员试图将这一愿景变为现实,但物理世界对于传统计算机程序来说,其呈现的无尽复杂性实在太过复杂,难以处理。得益于AI,机器人不再仅仅被编程——它们开始学习在真实世界中运作。通过足够的练习,它们能够学会感知和理解周围环境,对世界进行推理,并利用这种推理和理解来执行有用、可靠且安全的任务。
过去十年,我们一直工作在AI和机器人领域的前沿。我们在真实世界环境中部署AI驱动机器人的经验,让我们对AI在复杂机器人系统中的近期应用有了独特的视角,也清楚地知道哪些领域仍停留在科幻前沿。可以明确的是,AI必将推动机器人技术迎来拐点,但这将是通过精心设计的不同AI工具协调系统来实现,而非依赖单一的、类似ChatGPT式的突破。
当围绕AI的兴奋与对其可能性的不确定性并存时,以下是定义机器人AI发展的五个严峻现实。
不要相信YouTube上的机器人视频
多年来,YouTube上充斥着人形机器人在舞池或障碍赛道上表演惊人动作的视频。然而,机器人领域内部流传着一句箴言:“永远不要相信YouTube机器人视频”。能够在非结构化人类环境中执行真实工作的机器人,与那些经过精心编排和剪辑的表演之间,存在着显著的差距。
最近引起广泛关注的,是2026年中国春节联欢晚会上,Unitree人形机器人与儿童一同表演的武术节目。虽然场面令人印象深刻,但这本质上属于严格编排的机器人表演的长期传统,一切动作都经过精心设计和提前规划。其低级控制、同步和编排技术固然令人惊叹,但春晚机器人所展示的自主性和智能水平,更接近于工厂里制造汽车的工业机器人,而非很快会出现在你家客厅的通用助手。
这类演示自然引发了关于机器人技术真实水平的问题:如果机器人能表演功夫、后空翻和跳舞,为什么它们还没能大规模进入工厂车间?为什么它们还不能在晚餐后帮忙洗碗?简单的答案是:让AI驱动的机器人在多样化的人类环境中执行通用任务,仍然极其困难。春节联欢晚会这类技术壮举或许让我们感觉离目标很近,但其中AI的应用大多仅限于低级运动控制(比如防止摔倒),这只是解决机器人在人类真实、非结构化空间中实现通用目的所需的一小部分难题。
机器人不会有ChatGPT时刻
像OpenAI的ChatGPT和Anthropic的Claude这样的大语言模型,最初是在互联网规模的文本数据库上训练的。2022年底,世界仿佛一觉醒来,发现AI突然能够用散文或诗歌与我们“交谈”,并且几乎可以讨论任何话题。大语言模型已被证明具有良好的泛化能力,现在还能接受多模态输入(文本、图像、视频)并产生多模态输出。关键在于,其训练数据语料库既庞大又由人类生成,这些特征构成了AI训练的黄金标准。
然而,给AI一个身体(以机器人的形式),使其能够在物理世界中与人互动,仍然是一个非常困难且远未解决的问题。通用机器人的AI模型必须同时满足多个常常相互冲突的物理、几何和时间限制,同时还要在非结构化、动态的环境中运行。为了实现泛化,机器人模型需要在高维配置空间中收集的数据上进行训练。这里的“维度”代表文本、光照条件、自由度、关节限制、速度、力和安全边界等等。更重要的是,这必须是“好”数据——它必须包含来自物理世界中无限可能配置的众多示例。
由于这类现成的数据源非常稀缺,远程操作、视频分析、人类动作捕捉以及在模拟和真实世界中的自我探索等方法,都被视为收集数据的重要途径。这是一项艰巨的任务。以Google X的Everyday Robots项目为例,在2022年,他们运行了2.4亿个机器人实例来收集训练数据,而这主要用于训练一个垃圾分类模型。每项技能都需要类似规模的数据才能达到相近的能力水平,而这还远未达到人类水平。
通用机器人需要智能体AI
我们距离单一AI模型就能让通用机器人与我们共同生活和工作的时刻,还很遥远。
通用机器人可以有轮子或腿,可以有一到多个手臂。有些依靠螺旋桨飞行,有些则设计用于水下作业,还有些会在繁忙的道路上行驶。物理世界无限多样且复杂,更不用说所有将围绕在机器人周围的人类和其他生物了。如何训练一个模型在所有环境中都安全可靠地操作机器人?简单的答案是:做不到。至少在相当长的一段时间内做不到。
引领通用机器人下一个重大突破的获胜AI架构,很可能是机器人的“智能体AI”。这是一种能够推理、规划、使用工具并从结果中学习的高级协调模型,可以在有限的监督下执行复杂任务。在机器人上运行的智能体高级模型,将为不同类型的任务调用专门的子系统。我们可能很快会看到,多个机器人通过其机载的智能体AI模型相互协作与协调。
AI工具正在解锁机器人技术中的新能力,这反过来将催生新的解决方案和市场。令人鼓舞的是,这些新模型正被广泛提供,有些甚至作为开源解决方案。这种可用性让人联想到互联网的发展历程:只有当它变得无处不在时,真正的进步才会发生。随着对这些AI工具和技术的广泛访问,机器人技术中复杂行为的民主化将不可避免。
机器人硬件需要赶上AI软件
机器人是包含众多部件的复杂系统,所有部件都需要以极高的精度协同工作。为了使机器人既实用又安全,它的每个部分都必须协调一致,从感知系统到控制计算机,再到各个执行器。
执行器——即电机和齿轮——是机器人关键部件的一个典型例子,过去的方法已难以满足新需求。大多数工业机器人广泛使用的执行器,并不适用于在人类环境中运行的机器人。如果这些机器人意外与障碍物碰撞,产生的冲击会非常剧烈,力很大,容易造成损坏。但人类并非以这种方式移动。我们与世界互动的方式更加柔顺,我们不断与环境接触,并利用这种接触来辅助完成任务。
想想将钥匙插入锁中的挑战:人类通常不是通过将钥匙与钥匙孔完美对齐来完成的。相反,我们会感受钥匙孔的边缘并轻微晃动钥匙。机器人需要能够以新颖的方式操作,这要通过使用对力敏感、能够与环境进行柔顺交互的新型执行器来实现。虽然这类执行器确实存在,但它们尚未普遍应用于设计在人类周围运行机器人系统中。
客户需求推动机器人AI发展
看起来令人印象深刻的任务,与能提供实际价值的真实世界任务之间,存在巨大差异。机器人技术是“莫拉维克悖论”的完美例证:对人类来说困难的任务(如计算大数乘法)对计算机很容易,而对人类来说容易的任务(如幼儿的动作)对计算机和机器人却极其困难。
服务客户是一个无情的现实检验场,因为客户只关心解决他们实际遇到的问题。如果要部署基于AI的机器人解决方案,它们必须在可靠性和安全性指标上优于现有做法。Agility Robotics在客户地点部署人形机器人Digit的早期工作让他们意识到,首要障碍是安全性:在人类空间中平衡和操纵物体的机器人,给工作场所带来了新型风险。在首次人形机器人部署中,甚至需要设置物理屏障。这促使Agility启动了一项长达数年的工程努力来解决安全挑战,涉及机器人设计的几乎每个方面,并严重依赖基于AI的新方法进行人类检测和行为控制。
Everyday Robots项目于2019年在Google办公楼部署了自主工作的机器人,执行清洁咖啡桌和分类垃圾等杂务。他们很快了解到真实世界对机器人来说有多么“混乱”和困难。这一经验不仅为他们的AI系统架构和部署提供了信息,还收集了可以与模拟数据结合、用于训练和改进模型的宝贵真实世界数据。
这种专注于创建满足特定客户需求的产品,并在真实世界环境中反复部署测试的做法,是为近期实用性构建AI工具和基础设施的唯一途径,也是通往长期更广泛能力和通用性的必经之路。不会有“顿悟”时刻,没有一劳永逸的灵丹妙药算法,也没有足够的数据量可以在缺乏广泛真实世界经验的情况下,直接催生出通用机器人。
Q&A
Q1:为什么YouTube上的机器人视频不能代表真实的机器人能力?
A:机器人领域内部有句行话:“永远不要相信YouTube机器人视频”。这些视频中的表演通常是精心编排和剪辑的,一切动作都经过提前规划。虽然视觉效果令人印象深刻,但它们使用的AI大多仅用于维持平衡等低级运动控制。这与能够在非结构化人类环境中自主执行真实、多样化任务的机器人能力相比,仍有显著差距。
Q2:机器人AI为什么不能像ChatGPT那样实现单一突破?
A:赋予AI一个物理身体,使其能在复杂多变的物理世界中安全、可靠地与人互动,是一个远未解决的难题。机器人AI模型必须同时协调处理多个相互冲突的物理、几何和时间约束,并且需要在包含无限现实变量(如光线、纹理、力反馈)的高维配置空间中进行训练,而这类高质量数据源极为稀缺。训练每一项新技能都需要海量数据,因此,期待一个单一的、碘伏性的“ChatGPT时刻”来解决所有机器人问题是不现实的。
Q3:智能体AI在机器人技术中扮演什么角色?
A:智能体AI可以被看作机器人的“高级指挥官”或“决策大脑”。它是一个能够进行推理、规划、调用工具(如下层控制模块、视觉系统)并从执行结果中学习的高级协调模型。在机器人上,智能体AI模型会根据任务类型,灵活调度不同的专用子系统。未来,多个机器人甚至可以通过各自的机载智能体AI进行协作。这种架构被认为是实现通用机器人下一个重大突破的关键路径,它通过分层协调而非单一模型,来应对物理世界的极端复杂性。
相关攻略
5月20日,武汉光谷迎来一项突破性进展:全国首款真正定位于家庭环境的通用型机器人“拾光S1”正式发布。这标志着能够协助叠衣、烹饪备餐、整理餐桌,并能陪伴老人进行日常交流的智能机器人,正从概念构想步入真实家庭场景。 区别于工厂中执行固定流程的工业机器人,“拾光S1”的核心优势在于其智能决策系统。研发团
全国首款面向家庭环境的通用型服务机器人正式发布。5月20日,在武汉光谷,一款名为“拾光 S1”的智能家用机器人揭开面纱。该机器人致力于解决多样化的家庭事务,涵盖衣物整理、餐食准备、餐桌清理以及老人陪伴交流等场景,并具备持续学习与技能升级的成长能力。 它完全不同于传统工业流水线上按固定程式作业的机械臂
在开发者社区里,大家常把开源智能体框架 OpenClaw 戏称为“龙虾机器人”。这个名字听起来有点好玩,但它背后指向的核心价值其实相当硬核:构建一个“本地执行网关”。简单来说,它的使命是把云端大模型那种强大的推理和决策能力,真正“落地”到你的电脑上,转化为对本地文件、应用程序乃至硬件接口的实际控制力
5月16日,在海拔3600米的中国人民解放军西藏军区总医院手术室里,一台名为“锟铻®”的骨科手术机器人正平稳运行。这可不是一次普通的临床操作,而是全球首创的五合一全骨科手术机器人完成系统升级后,首次在拉萨投入临床应用。当天,两位长期被膝关节病痛折磨的藏族患者,在它的辅助下,成功接受了全膝关节置换手术
腾讯近日悄然为个人用户开放了一项新功能:现在,任何人都能通过官方渠道,快速创建一个能与AI智能体工具OpenClaw联动的QQ机器人。这标志着,曾经对普通用户有一定技术门槛的AI机器人创建,正变得前所未有的便捷和高效。 那么,创建这样一个AI机器人的流程究竟有多简单?根据QQ开放平台发布的最新指南,
热门专题
热门推荐
对于《梦幻西游》的玩家来说,在69级卡级打造一个高效的任务号,门派的选择直接关系到游戏体验的流畅度与性价比。综合评估,方寸山在69级这个阶段,展现出了极强的综合实力,无论是日常刷任务还是挑战高难度玩法,都能提供稳定且出色的表现。 日常任务中的高性价比选择 如果你的核心需求是快速、高效地完成日常任务,
近期,手游《冬末守护者》的关注度不断走高,许多玩家都在询问同一个核心问题:这款游戏究竟何时才能正式上线开放游玩? 通常而言,一款手游从研发完毕到全面公测,往往会经过封闭测试、删档内测、不删档测试等多个关键阶段,最终才迎来面向全体玩家的正式公测。这个周期长短不一,确实难以给出固定答案。不过,无需焦虑,
自1996年启航的《宝可梦》系列,早已成为全球无数训练家心中不朽的冒险传奇。而《宝可梦朱紫》的推出,无疑为这片广阔的帕底亚地区注入了全新的探索活力。在众多实力强劲的宝可梦中,巨钳螳螂以其标志性的钢铁巨钳和卓越的物理攻击能力,赢得了大量玩家的深度青睐。如果你也正在筹划,如何将这只虫与钢属性的强大战士纳
对于《梦幻西游》的平民玩家而言,在化生寺与普陀山之间做出选择,常常是一个需要仔细权衡的难题。这两个辅助门派定位相近,但在实际玩法、团队作用以及资源投入上却存在显著差异。本文将从任务效率、玩家对战(PK)表现以及装备养成成本三大核心维度,为您进行一次全面的对比解析,帮助您找到最适合自己的门派。 核心结
近日,《极限竞速:地平线6》玩家社区中发生了一件引发热议的趣事。一位ID为@Starshinefallng的玩家在社交媒体上分享了自己在游戏中遭遇的“离奇”内容审核事件,让不少玩家和高达粉丝感到困惑。 据该玩家发布的游戏截图显示,他当时正试图为自己的虚拟爱车定制一块个性化车牌,输入的是《机动战士高达





