先说几个核心判断。
6月29日,北京首钢园,一场名为“触碰真实·自主进化”的机器人幼儿园启幕大会,释放了一个明确的信号:强化学习理论在具身智能领域终于有了实体落点。大会由他山科技和OpenMind Global Research共同发起,北京具身智能研究院联合主办。最引人注目的环节,是2024年图灵奖得主、强化学习之父理查德·萨顿(Richard Sutton)教授团队与他山科技联合共建的“机器人幼儿园”正式揭牌。从这一刻起,机器人开始从被动模仿的“数据时代”,正式跨入交互试错的“经验时代”。

一、一个让机器人充满好奇、安全试错的幼儿园
他山科技董事长孙滕谌在开场致辞中提到了一个行业共识:全球人工智能产业正加速向“实体生产力”转型,而实现这一转型,亟需一套全新的技术范式。他山科技的思路十分明确——以触觉感知为核心突破口,打通强化学习的全流程能力闭环,让机器人在自主触碰、持续试错中积累经验、完成迭代进化。
随后登场的萨顿教授,系统阐述了“机器人幼儿园”的核心理念。他在现场反复强调:过去70多年里,AI的发展始终伴随着一种探索——通过试错让机器人持续学习。他特别引用了艾伦·图灵在1950年论文中的一个洞见:与其开发一个模拟成年人思维的程序,不如尝试开发一个模拟儿童思维的程序,让它不断成长、学会思考。萨顿教授坦言,过去几十年虽有类似尝试,但受限于脆弱的硬件,机器人始终难以获得扎根现实的广泛经验。
如今硬件已取得巨大进步,成本也在逐步降低。萨顿教授指出,传统从人类示例中训练出来的机器人行为“不够强大”,真正的答案是:机器人必须通过交互学习、通过试错在整个生命周期中实现持续学习,就像婴儿一样,从经验的积累中一步步成长。他特别强调,与他山科技共建的机器人幼儿园,正是基于这一理念——让机器人在没有人类示例的情况下在线学习,“这也是人工智能的一个梦想”。
他山科技CEO马扬从产业角度剖析了“为什么要建幼儿园”。他的观点很直接:机器人需要的不是孤立的数据,而是在交互中持续产生并不断更新的经验。触觉是人类和机器人与客观世界产生交互的唯一通道,只有通过触觉才能真正接触物体、改变目标。他山科技从2017年成立起就聚焦于此,目前已有数十万个触觉指尖应用于全球不同的人形机器人。
“幼儿园”这个提法很有深意。这是自主探索真正萌发的阶段,也是孩子开始逐步脱离保护、与物理世界直接交互的阶段。为此,他山科技为机器人幼儿园准备了四个核心条件:允许犯错的机会、安全的探索环境、持续的真实交互、及时而明确的反馈。马扬在最后向所有具身智能从业者发出了邀请:“我们有足够的耐心,也足够谦虚,因为我们觉得这不只是对具身智能的启蒙时代,也是人类和具身智能一起去迎接碳基和硅基生命共存的启蒙时代。”
二、一个开放生态的硬核底座
主题演讲结束后,全场嘉宾共同按下启动光柱,“机器人幼儿园”正式揭牌。这标志着具身智能从被动模仿正式迈向主动探索。
不过这只是一个序章。要让这个平台真正成为驱动产业进化的引擎,需要更多同行者。随后进行的“机器人幼儿园首批联合共建生态伙伴”启动仪式上,加速进化、云迹科技、因时机器人、他山科技、Openmind全球研究院、北京市唯实具身智能研究院、北京人形机器人创新中心、节卡机器人、紫东太初等企业与机构代表同台。他山科技集结了从核心零部件到整机、从算法框架到场景应用的多元力量,合力为机器人打造一个开放、安全、鼓励试错与自主进化的创新生态。
技术纵深层面,他山科技研发副总裁侯广东与Openmind研究员Dr. Kris De Asis给这场生态搭建提供了硬核注解。侯广东指出,他山科技与萨顿教授正在探索“真实系统上长程持续学习”的新范式。在机器人的启蒙阶段,“婴儿最重要的第一感知很可能是触觉”,它将成为“主动探索的基石”。他山科技计划利用触觉定义机器人的“疼痛”机制,并以此驱动机器人内在的探索动机。
Dr. Kris De Asis则提出了“为学习而设计”的理念。他提到一个常见的反对意见:“每当我提到我们应该直接在机器人身上学习的时候,经常听到一种声音——机器人会磨损、会出现故障。”在Dr. Kris看来,这恰恰是实时学习的闪光点。因为机器人会将这个情况视为一个新的现实,是必须经历的环境,它反而会根据所有这些磨损和损坏情况来学习如何执行任务。
三、一次关于成长与价值的对话
在“机器人启蒙时代,具身智能如何实现‘自主进化’”的圆桌讨论中,中国信息通信研究院人工智能研究所具身智能与机器人部副主任张蔚敏开宗明义:萨顿教授提出的AI从“数据时代”走向“经验时代”,本质上是在重新定义“智能如何生长”。
萨顿教授分享了合作渊源:“我们选择他山,是因为他们对触觉的专注,以及与我们共同相信经验学习的力量。”他坦言,他山科技在触觉感知上的深耕,尤其是对试错学习理念的共鸣与快速行动,是双方共建机器人幼儿园的核心原因。
他山科技董事长孙滕谌阐释了触觉与强化学习的深度融合:“触觉为强化学习提供了安全试错的屏障和感知的时序精度。”电容式触觉的接近觉能力让机器人在碰撞前即可预警规避,大幅降低试错成本;动态触觉技术将时间分辨率提升至微秒级,叠加类脑芯片对“脉冲-时序差分”算法的天然支持,为机器人的自主学习筑牢了硬件基础。
北京人形机器人创新中心CEO熊友军从生态建设切入:“开放的生态比单点突破更重要,我们需要产学研用分层协同。”他倡议,具身智能行业亟需学术研发、核心零部件和场景应用三类伙伴,通过开放共享的分层协作机制加速智能进化与产业落地。
软银中国管理合伙人宋安澜则从投资视角给出了判断:“过去有教育培训、技术培训,AI时代是机器人的经验培训。”他认为,机器人幼儿园这一全球首创的学习范式,将在几年内产生显著的经济效应。
第二场圆桌围绕“从幼儿园到真实世界:机器人如何‘养活’自己”展开讨论。中信证券投资黄耀庭以“100万”这个数字作为引子,但话锋一转:“我更重视的不是出货100万台,而是机器人到底能否干活。”他强调,产业重心应回归学习方法与能力的持续进化。
Openmind全球研究院高级研究员Dr. Kris De Asis回应了数据孤岛难题,他认为开源项目不止于算法和数据集,更应包括开放、共享的机电一体化设计。首钢基金总经理张檬指出了落地的关键瓶颈:机器人企业需要“从解决小问题开始,才能理解整个工业流程的串联”,只有真正扎根场景、甘做累活,才能跨越从实验室到订单的鸿沟。
节卡机器人副总裁许雄将数万台部署经验浓缩为一句话:“安全与交互性,是让机器人走出物理围栏的关键。”因时机器人联合创始人/CTO陈希描绘了手与算法共生驱动的未来:“灵巧手不单是执行器,更是多模态感知的数据收集器。”云迹科技首席发展官CDO谢云鹏在回应商业化平衡问题时,给出的方法论是“瞄准一个小的点,饱和攻击,最终让它变成刚需”。
四、一场稀缺的大师课
受他山科技邀请,萨顿教授专门面向国内具身智能行业进行了一整天的闭门授课。课程围绕“智能如何自主进化”这一根本命题,从理念框架到工程范式、从核心挑战到算法引擎,最后讲到最新演进路径,层层递进。
值得留意的是,萨顿教授在分享中特别强调了三个关键点——除了技术理念和机器人幼儿园,还有一个重要的点叫“坚韧”:保持谦逊、善良、乐观。这一价值观也与他山科技长期坚持的企业精神不谋而合。
现场演示了智能体如何通过试错自主学习简单操作任务的全过程。问答环节中,来自高校、企业实验室和产业一线的研究者们争相举手,萨顿教授一一耐心作答。这场大师课不仅是一次知识的传递,更被在场很多人视为一次难得的研究范式启迪。
话说回来,机器人的成长还有很长的路要走。所有同行者都需要心怀这份坚韧,携手前行。
