“具身智能过去主要靠模仿人类来学习,但人工智能真正的核心,是学会如何学习新东西。所以具身智能必须通过交互学习,在试错中实现持续迭代。”2024年图灵奖得主理查德·萨顿在6月29日的一席话,直接点出了当前具身智能发展的关键分歧。
交互学习,简单来说就是让机器人与真实环境互动、收集反馈,再从中学习——核心就是强化学习。而现在主流的模仿学习,则更像是“照葫芦画瓢”,让机器人复刻人类动作。两者之间的差距有多大?一个经典案例就是AlphaGo:早期它钻研棋谱,走的是模仿学习路线;后来研究者给它输入规则,让它自己不断“下棋”,最终打败了人类顶尖选手。从学棋谱到学会下棋,这是本质的跃迁。
萨顿明确表示:“现阶段人工智能的聚光灯大多打在大语言模型上,但具身智能的发展光靠大模型远远不够,更关键的是要关注‘经验’。”他所说的“经验”,指的是机器人在真实世界中通过一次次试错收集到的反馈。而这些经验,只能通过交互学习来获取。
同样在现场交流的触觉感知公司他山科技CEO马扬、协作机器人企业节卡机器人副总裁许雄,以及中信证券投资副总裁黄耀庭,也都围绕交互学习的重要性分享了自己的判断。马扬的观点很直白:“模仿学习只能帮具身智能完成‘冷启动’,但要想走向商业化,必须靠交互学习。”
他举了个例子:目前绝大多数具身智能的演示场景,都是精心设定的“舒适区”,跟现实环境差距很大。靠模仿学习,机器人只能知道“这样做是对的”,却永远搞不懂“什么才是对的”——这恰恰是商业化落地最大的门槛。
交互学习的另一个关键转变,是训练数据的来源。马扬解释,它意味着逐步减少甚至不再依赖仿真模拟数据,转而让机器人在真实世界里“动手”收集数据。萨顿也补充道:“模拟器的自由度太低,它提供的数据复杂度远不及现实世界。光靠仿真数据训练,很难应对真实场景的随机性。”
萨顿甚至给出了一个颇具碘伏性的判断:“具身智能不需要老师,也不需要被训练;它需要的是主动在环境中探索、学习。”
那交互学习具体要依赖哪些感知能力?马扬透露,早期具身智能主要靠视觉模型训练;进入交互学习阶段后,触觉感知能力的重要性急速上升。“视觉是用来感知的数据,触觉才是用来交互的数据。”在他看来,触觉感知能提供主动安全策略、驱动机器人自主探索,甚至可以通过触觉定义事件。
随着近年具身智能被部署到实际应用场景,行业逐渐发现一个问题:光靠视觉、缺乏触觉,机器人在具体场景里根本“玩不转”。目前能够落地的具身智能,在执行层面只能完成基础工作,或者给已有的工业自动化系统增加一点柔性功能。节卡机器人副总裁许雄也强调,工业机器人对安全可靠性、交互性和学习能力的要求越来越高,而这些都离不开触觉感知。
马扬透露,从去年开始,行业已经开始探索在纯视觉方案中融入触觉感知。下游厂商对机器人触觉产品的需求暴增——它们不再仅仅把触觉当成“执行器”,而是视为“收集器”。作为“收集器”的触觉感知,更看重的是鲁棒性、稳定性、耐久性和分辨率,而不是单纯的感知精度。比如说,分辨率足够好的触觉感知,能帮机器人快速对数据进行分类,从而做出即时响应和调整。
最后,黄耀庭给出了一个务实建议:“实验室和数据采集中心不是具身智能的终点。企业必须找到真实、可规模化、有商业价值的场景,在场景应用中持续收集数据、迭代产品。”这番话提醒我们:技术突破很重要,但只有落地到真实场景中,交互学习的价值才能真正释放。
