巴黎奥运会期间,乒乓球的关注度持续攀升。而在赛场之外,机器人打乒乓球这项技术,也悄然诞生了一项重磅突破。

DeepMind此次放出大招——推出了首个在竞技乒乓球领域达到人类业余水平的学习型机器人智能体。
论文地址:https://arxiv.org/pdf/2408.03906
那么,这个乒乓球机器人到底处于什么水平?从实际表现来看,它已经能与人类业余选手打得有来有回:
正手、反手切换流畅,面对多种打法的对手都能稳住阵脚,接住不同旋转的发球也不在话下。当然,要说比赛的激烈程度,或许还比不上公园里大爷们的“神仙打架”。
对机器人而言,乒乓球是一项极具挑战的项目。它既需要精细的低水平技能,又要求复杂的策略性玩法。DeepMind团队意识到,在战略层面稍作让步,但确保低水平技能执行到位,或许是更优解。这一点,让乒乓球与围棋、国际象棋等纯策略游戏彻底划清了界限。
也正是因为这个原因,乒乓球成了测试机器人综合能力的绝佳基准——高速运动、实时精确控制、战略决策、系统设计,还要直接与人类对手正面硬刚。
Google DeepMind的首席科学家对此评价颇高:“乒乓球机器人将帮助我们解决高速控制和感知的难题。”
那么,实际效果究竟如何?研究团队安排了29场机器人与人类的比赛。参赛者都是机器人从未见过的玩家,水平从刚入门的初学者到专业级的锦标赛选手都有。最终,机器人拿下了45%(13/29)的胜率。与最高级别选手过招时,机器人全面落败;但面对初学者,它保持了100%的胜率;对战中级选手,胜率也达到了55%。这个成绩,足以说明它已经摸到了人类业余选手的门槛。
接下来看看这项研究的几个核心贡献:
一是提出了分层模块化的策略架构。底层有专门的低级控制器和技能描述器,这些描述器能模拟智能体的能力,有效缩小模拟环境与真实世界的差距;顶层则是一个高级控制器,负责在关键时刻选择合适的低级技能。
二是实现了零样本的模拟到真实技术。这里面包含了一套基于现实世界任务分布的迭代方法,以及一套自动课程机制。
三是具备了实时适应未见对手的能力。
方法介绍
这套智能体由两部分构成:一个低级技能库,和一个高级控制器。低级技能库专注于乒乓球中的某个具体动作,比如正手上旋球、反手瞄准或正手发球。除了训练策略本身,研究还在线上和线下收集了每个低级技能的优势、劣势和局限信息。而高级控制器则根据实时比赛数据和技能描述,临场选出最合适的技能。
此外,研究团队还收集了一小部分人类对战的比赛数据,用来作为初始任务条件的种子——数据里包含位置、速度和旋转信息。之后,在模拟环境中,团队用强化学习来训练智能体,再借助现有技术,把训练好的策略无缝部署到真实硬件上。
更有意思的是,这个智能体还会边打边学。它通过与人类对打不断生成新数据,游戏标准也随之变得越来越复杂,让智能体持续学习更高阶的动作。这种“模拟—现实”混合循环,像一个自动老师,让机器人的技能随着时间推移逐步提升。
分层控制
分层控制的具体流程大致可以拆解为这样几步:
先由高级控制器(HLC)决定使用正手还是反手;然后根据比赛中的统计数据,在线维护每个HLC的偏好(用H值来量化);接下来,HLC根据调整后的H值,从入围的低级控制器中进行抽样;最后,H值和对手统计数据会持续更新,直到比赛结束。
结果
研究团队把智能体拉出来,与29名不同级别的选手进行实战对比——这些人被分成了初学者、中级、高级和“高级+”四个档次。比赛严格按标准规则进行(只是机器人没法发球,所以规则做了微调)。
面对所有对手,机器人最终拿下了45%的“比赛”胜利和46%的单局胜利。按水平拆开看:对阵初学者,胜率100%;对阵中级选手,胜率55%;而对阵高级和高级+选手,则是全败。数据很清楚:在乒乓球回合中,这个智能体已经稳稳站上了中级人类选手的水平线。
打不过高级玩家的原因其实很直白——物理和技术的天花板摆在那里:反应速度、相机感应能力、对旋转的处理……这些在模拟环境里很难做到精准建模。
话说回来,跟这个机器人打球,体验还真不赖。参与测试的人普遍评价很高,觉得“有趣”“吸引人”,而且全都表示“非常愿意”再来一把。在自由活动时间里,他们平均在5分钟里玩了4分06秒,这个粘性已经很能说明问题。
不过,这个机器人也有明显的软肋——它不擅长处理下旋球。最好的选手很早就指出了这一点。研究人员一验证果然如此:面对下旋球增多时,机器人的球着陆率大幅下降。这既是物理层面的无奈——处理低球时容易撞到球台,也是技术上的挑战——实时判断球的旋转本来就是难点。
参考链接:https://sites.google.com/view/competitive-robot-table-tennis/home?utm_source&utm_medium&utm_campaign&utm_content&pli=1
