机器人通过视频学习,实现逼真嘴部动作生成
1月19日,哥伦比亚大学的一间工程实验室里,一台人形机器人正以令人惊叹的逼真度活动着嘴唇。这项由创意机器实验室主导的研究,首次实现了自主系统仅通过视觉学习,就掌握了用于说话和唱歌的自然唇部动作。

据了解,这一成果攻克了人形机器人设计领域的一大核心难题:面部动作的违和感。尽管机器人在行走、抓取和整体灵活性方面已取得重大突破,但面部表情,尤其是与语言相关的唇部动作,仍然是一个尚未攻克的领域。
即便是顶尖的人形机器人,其嘴部动作也往往显得僵硬、如同木偶一般,难以营造出栩栩如生的效果。人类对这类细微的违和感极为敏感,这种心理现象正是研究人员所说的“恐怖谷效应”的成因之一。
该研究团队采用了一种全新的学习方法,机器人没有遵循为每个元音或音素编写的固定规则,而是通过实验和模仿来学习唇部力学。其面部由覆盖在26个微型马达上的柔性合成皮肤构成,能够复刻出语言表达背后细微的肌肉运动变化。
研究人员首先让机器人面对镜子,使其观察自身数千种随机表情。通过这一过程,机器人掌握了马达运动与不同面部形态之间的对应关系,研究人员将这一阶段称为“自我探索期”。
在理解自身运动机制后,机器人开始学习人类的语言表达。它通过分析数小时的人类说话、唱歌视频素材,建立起唇部动作与声音之间的统计学关联。这套名为“视觉-动作转换模型”的训练流程,能让系统直接将音频转化为同步的马达控制指令,无需依赖明确的语音编程,即可实现逼真的唇部动作。
测试结果显示,这款机器人能够配合多种语言完成唇部同步运动,甚至还能演唱其人工智能原创专辑《Hello World》中的曲目。尽管目前的动作仍非尽善尽美,如“B”这类爆破辅音,以及“W”这类圆唇音的模仿,仍是待解难题,但进步效果显而易见。创意机器实验室主任、机械工程学教授霍德·利普森表示:“它与人类的互动越频繁,表现就会越出色。”
这项突破的意义远超娱乐层面,更关乎人机交流的深度。能够传递细腻情感的机器人面部,或将从根本上改变人机互动的方式。研究负责人胡宇航指出,将逼真的面部动作与对话式人工智能相结合,可增强人机交互的情感共鸣,让“彼此理解”的错觉更加真切。假以时日,随着模型学习到更丰富、更长的对话语境,这些微表情动作也将具备更强的情境感知能力。
利普森认为,这类研究填补了机器人技术中一个长期被忽视的维度。他解释道,大多数人形机器人研究都侧重于肢体机械性能,如腿部、手部动作与移动能力,却忽视了面部情感表达。然而,对于应用于教育、医疗和养老领域的机器人而言,逼真的面部表情与实用的肢体灵活性同等重要。随着全球人形机器人量产进程加快,面部动作的逼真度或将成为决定公众接受度的关键因素。
胡宇航表示:“我们正濒临跨越恐怖谷的临界点。未来的人形机器人,必然会拥有灵动自然的面部表情。”
不过,胡宇航与利普森均承认,这项技术背后潜藏着复杂的心理学与伦理学挑战。随着机器人变得越来越通人性,人机之间的情感边界可能会逐渐模糊。长期致力于机器人共情能力研究的利普森呼吁保持审慎:“我们必须循序渐进、谨慎探索,才能在收获技术红利的同时,将潜在风险降至最低。”
该研究成果已发表于相关期刊。
相关攻略
全国首个人形机器人全生命周期管理平台在京发布,为每台机器人赋予终身唯一编码作为“数字身份证”。该平台由工信部下属委员会牵头,已接入超百家企业,覆盖2 8万余台机器人,实现从生产到回收的全流程可追溯,旨在推动产业规范、协同发展。
人形机器人灵巧操作依赖空心杯电机,其长期被海外企业垄断。上海马赫智造历经898天,建成首条高精度全自动产线,实现绕线、动平衡等核心环节自主研发,将年产能提升至40万只。这标志着国产高端空心杯电机突破技术壁垒,为机器人、医疗等高端领域提供稳定本土供应,推动中国制造自主升级。
优必选成为第四届链博会独家人形机器人合作伙伴,将派出全球首批人形机器人志愿者矩阵参与大会服务。其新一代全尺寸人形机器人WalkerC1担任链博会“硅基代言人”,承担智能导览、迎宾接待、信息咨询等实际任务,以科技赋能提升大会互动感,展现中国硬科技实力。
2026年杭州人形机器人展会热度攀升,产业链日趋完整。上游核心零部件向专用化、微型化发展;下游应用探索多样,但落地仍以结构化场景为主。产业分工深化,新角色涌现,焦点转向稳定量产与成本控制。技术路线未统一,降本成为大规模商用关键。
开普勒机器人以7 22亿元整体估值将控股权出售给杭州柯林。该公司聚焦工业场景,定位务实。交易反映出投资人态度分化:部分早期财务投资者退出,而产业资本等股东选择留守,看好其订单积累与落地路径。工业场景是人形机器人可行的突破口,平衡技术务实与资本预期成为关键。
热门专题
热门推荐
公安部就电子数据取证规则公开征求意见,拟将网络安全等行政案件纳入适用范围,并规范取证流程与核心概念。新规特别明确了获取密码、调取通讯内容等特殊程序,需经严格审批并保障当事人权利。配套法律文书也同步优化,以构建更规范且注重权利保障的取证体系。
理想L9和LIvis的定价策略刚掀起波澜,小鹏GX的最终价格就给出了更猛烈的回应——从近40万元的预售价直降至27万元起。用小鹏产品矩阵负责人吴安飞的话说,这叫“9系的产品,8系的价格”。 这12万元的下调,效果堪称立竿见影。发布会次日,小鹏集团港股股价一度大涨超8%。更关键的是市场订单:上市12小
5月21日,环塔拉力赛新疆且末赛段大营迎来了一位备受瞩目的访客——知名零售企业胖东来的创始人于东来。他专程前往长城汽车车队营地,与参赛车手及后勤团队进行了深度交流。据悉,于东来此次自驾越野之旅已历时一月,随行车队中包含多款国产越野车型。经过实地驾驶与多维度对比,他对以长城汽车为代表的国产越野车品质给
比特币官方入口在哪里?一个核心门户的权威指南 说起比特币,很多人第一反应是去找它的“官网”或“官方App”。但这里有个关键点需要先理清:比特币本质上是一种去中心化的全球数字货币,它不属于任何一家公司或机构,而是由一个庞大的、遍布全球的社区共同维护。因此,它并没有传统意义上由某个企业运营的“官方网站”
Ring-2 5-1T是什么 在当今大模型技术激烈竞争的赛道上,追求更长的上下文处理能力和更强大的深度推理性能已成为核心焦点。近日,蚂蚁集团旗下的inclusionAI团队重磅开源了Ring-2 5-1T模型,这是一个参数规模高达万亿级别的混合线性思考大语言模型。该模型基于先进的Ling 2 5架构





