通过观察与模仿来掌握动作,这几乎是所有生物与生俱来的本能。婴儿聆听大人说话而咿呀学语,学徒凝视师傅操作而练就手艺。感知与动作之间的天然闭环,对人类来说水到渠成,但对于机器人而言,却是一道难以跨越的门槛。
不过近期,南加州大学(USC)的研究团队提交了一份令人瞩目的成果。他们打造了一只四指机械手,取名为“音乐家之手”。它的厉害之处在于:只需自己在键盘上随机按压两分钟摸索规律,随后听一遍全新的旋律,便能直接演奏出来,全程无需乐谱,也无需任何人告知它该按下哪个琴键。
这项研究的负责人弗朗西斯科·瓦莱罗-奎瓦斯(Francisco Valero-Cuevas)是USC维特比工程学院的教授,他的实验室长期致力于研究人手这一复杂系统背后的生物力学与神经控制原理。

图 | 音乐家之手(来源:USC)
该系统的全称是“音乐家之手”(Musician Hand),硬件部分是一只由肌腱驱动的四指机械手,软件部分则搭载了一套全新的感知学习算法。这只手采用3D打印技术制成,极为轻巧,四个手指由微型电机拉动“肌腱”实现运动。每根手指内部装有弹簧,用以模仿人体肌肉的弹性——按下后能自动回弹,动作相当灵巧。指尖包裹了一层泡沫材料,触感柔软,这对钢琴演奏——尤其是对力度要求极高的乐器而言,至关重要。最核心的是,其内置的神经网络能够直接分析听到的声音,并将声音实时转换为能够弹出该声音的手指动作指令。
图 | 音乐家之手概述(来源:上述论文)
它的学习方式与传统机器人截然不同。大多数机器人需要大量编程和海量数据训练,但这款机械手的训练过程更像是婴儿在学习说话。研究者给它两分钟时间,让它在琴键上随意乱按。在乱按的过程中,内部的算法会默默记录:用了多大的力、按了多久,产生了什么样的音高与音量。就是这么简单。两分钟后,再播放一段全新的旋律给它听,系统会将听到的声音转化为声谱图,然后直接调用之前积累的经验,计算出该动哪根手指、用多大的力,才能重现这段旋律。整个过程无需反复试错纠错,一次即可完成。
为了检验效果,研究团队设计了一个实验。他们特意邀请作曲家创作了三首简单的旋律,每首仅使用四个相邻琴键(C4、D4、E4、F4),时长20到30秒,节奏统一为每分钟90拍。

图 | 三首旋律的乐谱(来源:上述论文)
实验的对比对象是人类。团队招募了9位参与者:4位具有钢琴基础的人员(其中3位专业演奏者,1位业余爱好者),以及5位从未弹过钢琴的新手。人类的学习方式为:先在琴上摸索5分钟,再练习3分钟,最后用1分钟正式弹奏。而机器仅通过2分钟的随机探索,然后直接听一遍即开始演奏。评估的重点集中在旋律1(共37个音符)的复现表现上。
结果令人相当意外。在音符识别准确率方面,机械手取得了满分——100%识别,三首旋律的音符无一遗漏;而5位新手仅弹对了前两三个音符,准确率只有6%-9%,完全无法完成整首曲子。专业钢琴演奏者的准确率在92%-100%之间,其中一人弹得完美无瑕,其余人则犯了1到4个错误。
弹琴不仅需要音符准确,力度与节奏同样关键。在力度还原度上,机械手得分68%,专业演奏者的表现则在78%-100%,人类略胜一筹。在节奏时差控制方面,机械手的误差约为150毫秒,专业演奏者则控制在120毫秒以内,同样小幅领先。
这还不是全部。研究人员还进行了量化对比,从感知相似性、听觉相似性和节奏相似性三个维度,评估机械手与5位钢琴家所演奏的音乐片段。指标上,0分表示完全不同,0.5分表示中等相似,1分代表完全一致。对于旋律1,“音乐家之手”在三个指标上的得分与四位人类钢琴家不相上下,均超过0.9分。

(来源:上述论文)
最有趣的环节是盲听测试。两位负责作曲的创作者在不知道演奏者身份的情况下,仅凭音频评估谁的演奏最接近原曲。最终排名耐人寻味:前三名均为专业钢琴手,机械手位列第四,比那位业余钢琴手排名更高,更是将新手们远远甩在身后。
随后,研究团队又让机械手尝试了另外两首旋律(分别有28个和24个音符)。这一次,机械手没有花费时间练习或“探索”,直接听一遍就弹,结果依然完美地还原了所有音符。在力度还原方面,旋律2获得了84%,旋律3获得了70%。平均节奏时差也分别控制在135毫秒和150毫秒。

图 | 定量结果:音符检测、力度估计、节奏时差(来源:上述论文)
表面上看,这只是一个会听音弹琴的机械手,但它的价值远不止于此。这实际上是研究团队对“感知机器人”理念的一次概念验证。在这一新框架下,机器不再依赖大规模数据喂养和精细编程,而是学会了主动感知环境、自主试错、自我调整。研究人员认为,这种模式未来的应用潜力将比当前的任务驱动型机器人更贴近人类直觉,也更能以个性化方式服务人类。
瓦莱罗-奎瓦斯描绘了一个动人的愿景。例如帕金森病患者,现有的辅助设备往往难以跟上病情的变化。但如果患者在确诊初期就穿戴机器外骨骼,花几天时间教会它自己走路的方式、伸手的习惯……随着病情发展,当患者再次穿上并开启辅助模式时,它就能原汁原味地找回专属于你个人的生活习惯,无需繁琐的编程配置,因为它已经“认识”了你。
本研究的第一作者赫萨姆·阿扎朱(Hesam Azadjou),研究方向为神经工程,他也指出,未来的康复机器人可以先向理疗师学习专业的康复手法,然后到患者家中充当私人教练,并能根据患者实时的动作与身体反馈,动态调整康复计划。只要投入足够的时间与资源,同样的系统未来也完全可以帮助中风患者康复、在工地上与建筑工人协同作业,甚至让老年人更安全、更独立地居家养老。
参考论文:Hesam Azadjou, Ali Marjaninejad, Francisco J. Valero-Cuevas; Perception in action: a robotic system that can teach itself to melodiously play music by ear. J R Soc Interface 1 May 2026; 23 (238): 20250909. https://doi.org/10.1098/rsif.2025.0909
