人形机器人实现多语言逼真唇形动作合成
来源:科技日报
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
美国哥伦比亚大学的科研团队成功设计出一套创新的技术框架,使仿人机器人的面部能够根据音频信号生成逼真的唇部动作,从而实现与人类语音的精准同步。这项技术还展现出较强的泛化能力,能够推广至包括法语、汉语和阿拉伯语在内的多种语言,即便这些语言并未出现在训练数据中。研究团队在最新一期《科学·机器人学》上发表论文指出,这一进展标志着机器人不仅能够执行功能任务,更向着能够进行拟人化交流的目标迈出了重要一步。

日常对话中,如果机器人的唇部动作与其发出的声音不匹配,会显得呆板且不自然。然而,现有机器人普遍缺乏执行精细口部动作的灵活性,能够实时将语音转化为自然唇部运动指令的技术更是寥寥无几。
该研究团队在2024年发表的研究中,曾描述了一种仿人机器人面部能够预测人类的微笑并同时复现该表情的方法。在此基础上,为了更精细化地匹配唇部与声音,团队精心设计了一套学习流程:首先采集机器人唇部运动的视觉数据,用于训练模型并生成运动参考点;随后通过一个名为“面部动作转换器”的模块生成运动指令,使得机器人的唇部能够流畅配合不同词语的发音。他们还专门研制了一种仿人机器人面部结构,采用柔软的硅胶皮肤,配合磁性连接器,具备10个自由度,可驱动复杂的唇部运动。其唇部结构能形成覆盖24个辅音和16个元音的各种口型。
在验证过程中,团队借助ChatGPT生成测试语句,并合成了具有理想唇部动作的视频作为对比基准。结果表明,该方法在5种比较方案中表现最优,其生成的唇部动作与理想视频差异最小。此外,该框架还能为11种不同语音结构的非英语语言生成自然的唇部同步效果。
研究团队推测,这类仿人机器人在教育、老年护理等领域具有应用潜力。但团队也强调,未来的设计工作需要格外谨慎,以防技术被滥用。(科技日报记者 张梦然)
总编辑圈点
如今,AI让虚拟人物动嘴说话早已“不在话下”,然而让机器人做到这点还相当困难。大多数机器人“说话”时并不动嘴,即使动嘴,也只是象征性地一张一合。这次,科研人员试图让机器人拥有人类一般细腻、精准的唇部动作,教它们通过合成视频以“照镜子”的方式学习;还开发了硅胶皮肤,设计了面部机械系统。结果表明,机器人可以“学会”多种语言的唇部动作。不过,研究也不禁让人思考,当机器人真的开口说话,“恐怖谷效应”是会加重还是会减轻?
热门专题
热门推荐
3 月 30 日,数码圈内放出 小米 18 Pro Max 的影像爆料 终极干货,新一代超大杯旗舰影像硬件彻底官宣定稿,搭载 22nm 工艺打造 2 亿像素超大底传感器,规格 1 1 28 英寸
给电脑换了新固态硬盘,或者买了台全新的台式机 笔记本电脑,很多人都在纠结是否要给固态硬盘分区,尤其是从机械硬盘时代过渡过来的人,总认为分区是保障电脑流畅、数据安全的必要操作,抑或是强迫症使然。但实际
在制作ppt时,常常需要插入excel表格来展示数据。那么,ppt怎么插入excel表格呢?其实方法很简单。首先,打开你的ppt文档,将光标定位到想要插入表格的页面。然后,点击“插
3月30日消息,近日,在世界超级摩托车锦标赛(WSBK)中量级赛事(葡萄牙站)中,法国车手Valentin Debise驾驶张雪机车820RR-RS车型,以领先近4秒的优势强势夺冠,创造历史。而在第
无限暖暖2 2版本更新之后开启了全新的区域万相境可以让玩家们来探索,地图上有着许多位置不同的奇想华灯可以让玩家们来收集并获取,不少小伙伴想要知道九华阙奇想华灯怎么获取,今天小编将给





