1月17日,科技媒体New Atlas发布文章,报道了机器人面部表情系统的最新突破。哥伦比亚大学创意机器实验室研发的名为EMO的系统,致力于让仿人机器人的面部表情和语音达到自然、流畅的同步效果,从而有效克服“恐怖谷”效应中的关键挑战。

系统演示(图源:哥伦比亚大学创意机器实验室)
与依赖预先编程的传统机器人不同,EMO具备自主学习能力。它通过观察人类的面部行为来优化自身表达,使其交互体验更加生动自然,甚至接近科幻作品中的设定。
为了实现接近真实人类的质感,EMO并未使用刚性外壳,而是在其面部覆盖了一层柔软的硅胶皮肤。在这层皮肤之下,研究团队精密部署了26个微型电机。
这些电机通过不同的组合方式协同工作,能够细腻地牵引皮肤,从而呈现出微妙的面部表情并精确控制唇形变化。这种硬件架构赋予了EMO极高的表达自由度,使其能够模拟出从微笑、惊讶到沉思等多种复杂神态。
为了教会EMO控制面部表情,研究团队引入了“视觉-动作”语言模型。在训练初期,团队将EMO置于镜前,让其自发进行数千次随机的面部运动。
EMO通过摄像头观察镜中的自己,分析每一次电机指令与最终呈现的面部表情之间的因果关系。这个过程类似于人类婴儿通过模仿和观察来学习控制肌肉,从而让机器人建立起内在的“本体感受”模型。
在建立了基础运动模型后,EMO进入了进阶训练阶段。这台机器人观看了数小时人类说话和唱歌的视频资料。系统通过分析视频中的音频特征及其对应的口型变化,学习将听觉信号与视觉信号进行映射。
结合之前建立的VLA模型,EMO最终实现了在播放合成语音的同时,实时生成高度吻合的唇部动作。它甚至能在发声前几毫秒预判并预先调整口型。
尽管EMO在处理“B”、“W”等闭唇音时仍存在一些细微瑕疵,但其核心架构已展现出巨大潜力。研究人员指出,随着训练数据的不断增加,这些问题将逐步得到改善。未来,团队计划将EMO与先进的对话式AI进行整合,以探索更自然的人机互动。
