首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
哥大博士攻克机器人表情瘫痪,视频教学11门语言交互

哥大博士攻克机器人表情瘫痪,视频教学11门语言交互

热心网友
60
转载
2026-02-09

你是否想过,当人类面对面交流时,我们的注意力更多地被放在哪里?

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

第一直觉或许是眼睛。它们是心灵的窗户,能够传达出细微而生动的情感。科学研究也证实的确如此,在日常对话中,我们会频繁地注视对方的眼睛来捕捉情绪信号。

不过,当环境变得嘈杂时,情况就有所不同了。研究表明,在噪音环境下,人们会将 50%-55% 的注意力转向对话者的嘴唇,倾向于通过唇形来辅助理解对方在说什么。

这也解释了为什么即便是目前最先进的人形机器人,仍然让人在和它们面对面交流时感到不适。我们可以容忍它们笨拙的步态,甚至僵硬的手势,但当一张接近人类的面孔无法自然地活动时,就会生发出一丝诡异感。这就是机器人领域著名的"恐怖谷效应"——越接近人类却又不够完美的机器,反而会引发更强烈的排斥感。

在致力机器人如何跨越“恐怖谷”效应的道路上,首形科技是积极的拓路者之一。这家由哥伦比亚大学博士胡宇航创立的初创公司,自成立起便选择了一条与众不同的技术路径:不追求机器人在运动或操作能力上的极致性能,而是聚焦于赋予它们具有情绪表达能力的面部。过去一年多,这一方向为他们赢得了多轮融资,并且收获了社交媒体和市场的广泛关注。


图 | 胡宇航与人脸机器人 Emo (来源:受访者)

1 月 15 日,Science Robotics 封面刊发了胡宇航团队关于 Emo 面部机器人的研究,展示了其如何通过学习实现与语音、歌曲同步的唇部运动,这也是 Science Robotics 首次将人脸机器人刊登在封面。这项工作源于他在哥伦比亚大学的博士研究,也是他近两年在 Science 和 Nature 子刊上发表的第三篇论文。


(来源:Science Robotics)

嘴唇运动被低估的复杂性

“嘴唇是人们交互过程中动作最多的部位, 也是机器人从表情自然到交互自然非常重要的门槛。”胡宇航告诉 DeepTech,嘴唇运动的复杂性远超多数人的想象,甚至超出了机器人研究者此前的认知。

从技术角度看,这种复杂性首先体现在驱动机制上。与眉毛等单一方向运动的面部特征不同,嘴唇由多个肌肉群驱动,运动过程中存在频繁的接触与分离。同时,嘴唇对时间精度极为敏感,还需同步承载语言、情感与社交信号。胡宇航指出:“这使得嘴唇运动的建模从根本上超越了参数化控制,成为一个高维、非线性、强闭环的生成式形变问题。”


(来源:论文)

既然如此,面对如此复杂的任务,如何客观衡量机器人嘴唇运动的“真实性”呢?

胡宇航团队在论文中提出了一种创新方法:使用合成参考视频作为理想同步基准,在 VAE 编码器的潜空间中计算机器人嘴唇运动与参考视频之间的距离。该指标能够刻画整体嘴型动态与时序结构的偏差,避免了依赖易受噪声干扰的二维关键点。由此,研究者获得了一个客观的度量标准,可以在连续语音与多语言场景下评估音频-视觉同步误差。

这可以说是创新的一步。因为此前,机器人领域对嘴唇同步的尝试主要依赖手工预定义的运动规则和固定的音素-视位映射表。简单来说,就是为每个音素设计一套固定嘴型,再让机器人机械执行。

但这种方法存在明显的局限。胡宇航列举了几个关键问题:首先,同一音素的发声速度会因说话人、场景或情绪而异。例如,一个人在激动和平静状态下说出的“好”,虽然音素相同,但嘴唇运动的幅度、速度和形态可能截然不同。其次,在多语言、歌唱或方言等场景中,基于音素设计规则需要投入巨大的手工工作量。更关键的是,当机器人硬件升级时,所有动作几乎都要重新编排,难以复用。

此外,这种规则方法还隐含了一个假设:音素与嘴型之间存在着稳定、一对一的映射关系。但这显然与真实人类发音机制并不相符。实际上,同一音素的嘴唇运动在不同说话人、语速、情绪和语境下都存在显著差异,其时序、幅度和形态高度连续且上下文相关。

将这种连续性强行离散化为固定规则,必然丢失大量信息。规则方法也无法建模嘴唇作为软体器官所具有的非线性、并行驱动和跨时间依赖特性,最终只能生成“正确但僵硬”的嘴型序列。

相比之下,数据驱动方法能够从真实人类与机器人发音数据中学习复杂的统计规律与隐含约束。胡宇航表示:“这从根本上突破了规则方法在泛化性、可扩展性和自然性上的瓶颈。”

想要更像人,机器人需要“照镜子”

为了让机器人更精准地复刻学习人类的嘴唇动作,胡宇航团队巧妙地设计了两阶段“自监督学习系统”(Self-Supervised Learning, SSL):第一阶段,机器人通过“照镜子”建立自我模型;第二阶段,它观看人类视频学习嘴唇运动规律。


图 | 用于机器人唇部同步的自监督学习框架(来源:论文)

“两阶段设计的核心原因在于机器人与人类在外观、结构和运动约束上的本质差异。”胡宇航解释道。若跳过第一阶段,直接让机器人模仿人类视频,将不可避免地学习到大量自身硬件无法执行的形变模式,例如人类皮肤的滑移、唇齿细节或肌肉驱动方式。这些错误映射最终会导致机器人动作失真、抖动或被系统性削弱。

第一阶段的“照镜子”训练,目的并非学习表情本身,而是让模型明确“哪些运动在自身硬件与软体结构下是可实现的”。通过随机生成数千个面部表情并观察镜中反馈,系统建立起从视觉变化到自身可控空间的映射关系,为后续学习提供物理可行性的约束。

在具备自我模型的基础上,第二阶段引入人类视频的作用变得清晰:机器人学习人类嘴唇运动的统计规律与高层时序结构,并通过自我模型将这些规律投射到自身可执行的动作空间中。“这本质上是先解决‘我是谁、我能怎么动’,再解决‘人类是如何动的’。”胡宇航说。该策略有效避免了跨形态直接模仿带来的域错配问题,是实现自然、稳定且可泛化嘴唇运动的关键前提。


图 | 团队机器人 Emo 照镜子(来源:胡宇航)

出色的跨语言泛化能力

实验结果展示了这套系统的出色泛化能力:它能在 11 种语言中实现自然的嘴唇同步,包括英语、法语、日语、韩语、西班牙语、意大利语、德语、俄语、中文、希伯来语和阿拉伯语。


图 | 多语言口型同步性能的测试结果(来源:论文)

这种神奇的"跨语言"能力从何而来?胡宇航解释道:“系统并未学习语言或音素本身,而是学习了人类发音过程中更底层的肌肉运动模式。”在两阶段自监督框架下,模型首先熟悉机器人自身嘴唇能做出哪些动作;随后在观看人类视频时,它不再关注具体是哪种语言、哪个发音,而是去捕捉声音节奏与嘴唇动作之间那些跨越语言边界的共性规律。

“这些关系在不同语言中表现为高度一致的运动模式,比如张合节律、闭合-释放结构、过渡速度等。”换句话说,虽然各种语言的发音规则千差万别,但人类嘴唇的运动方式终究受限于相同的生理结构。正因如此,系统学到的是声音与动作之间更本质的对应关系,使它能够自然地适应多种语言,甚至应对不同的语速和说话风格。

尽管成果显著,胡宇航坦言系统仍面临技术挑战,其中最典型的是硬辅音(如 /b/、/p/、/m/、/w/)的处理。这些音素之所以棘手,不仅因为发音速度快,更因为它们同时涉及多重难以精确建模的约束条件。

以 /b/、/p/、/m/ 为例,发这几个音时,嘴唇需要在极短时间内完成“闭合—保持—释放”这一连串动作。闭合不够紧或时机稍有偏差,人耳立刻就能察觉异样。而 /w/ 更为复杂,不仅要求双唇闭拢,还需要嘴唇前突、形成圆形,同时配合口腔形状的连续变化。胡宇航补充,这意味着模型必须在毫秒级时间精度下,协调多个高度耦合的自由度,同时应对软体接触、非线性阻尼以及电机带宽限制等物理因素。

与元音或软辅音那种平滑渐变的动作不同,硬辅音更像是一种"开关式"的动作——既有连续的运动轨迹,又有瞬间的接触切换。这恰恰是当前数据驱动模型最容易出错、机器人执行难度最高的地方。

从实验结果来看,当前方法在一些极端语音场景下表现欠佳,比如语速极快、多人同时说话、歌唱中的颤音,以及情绪激动时的表达。胡宇航认为,这反映了方法的本质边界:"模型主要学习的是典型对话语境下声学时序与嘴唇运动之间的关系。"一旦输入偏离日常对话的范畴,系统性能便会下降。

不过他也指出,这些失效案例恰恰为未来研究指明了方向:“这也为我们引入更丰富的对话与语音场景提供了思路。”随着训练数据的丰富和模型能力的提升,这些边界场景的处理能力有望逐步改善。

在采访最后,DeepTech 问及这项技术是否会从唇部动作扩展到整个面部表情系统。

“会的。”胡宇航给出肯定回答,“我们团队的最终目标,是实现完整的类人交互。”如何协调唇部动作与眼神、眉毛等其他面部要素,形成统一而细腻的情感表达,正是团队下一步要攻克的方向。这不仅是技术上的自然延伸,更是对人机交互本质的深度探索。当机器人能够用整张脸来表达和理解情绪时,它与人类的关系将发生更深刻的转变。

论文地址:DOI: 10.1126/scirobotics.adx3017

营/排版:何晨龙

来源:https://www.163.com/dy/article/KLB9P2C205119734.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

谷歌或将Chromebook更名为ChromeOS电脑
科技数码
谷歌或将Chromebook更名为ChromeOS电脑

谷歌计划联合多家主流PC厂商,将Chromebook品牌升级为“Googlebook”。新产品将深度集成Gemini等AI服务,并强化与安卓设备的跨端协同。其具体功能与可能搭载的新操作系统,有望在即将举行的谷歌活动中揭晓。

热心网友
05.13
谷歌Chromebook或将更名新名称曝光
科技数码
谷歌Chromebook或将更名新名称曝光

科技圈今日迎来一则颇具分量的行业动态:据网页存档记录显示,谷歌正携手数家主流OEM制造商,酝酿将我们熟知的“Chromebook”品牌,全面升级为“Googlebook”。 这一消息最初由知名科技媒体XDA提前泄露,尽管相关报道很快被撤下,但眼疾手快的Reddit社区用户已保存下关键页面快照,使得该

热心网友
05.13
Midjourney生成偶像打歌服舞蹈动作的AI绘画教程
AI
Midjourney生成偶像打歌服舞蹈动作的AI绘画教程

想用Midjourney生成一张既有动感舞姿,又穿着华丽打歌服的偶像舞台图?这事儿听起来简单,但直接丢个“跳舞的偶像”给AI,出来的结果往往不是动作僵硬,就是服装跑偏。别急,要精准拿捏这种高动态、高细节的风格,其实有一套经过验证的“组合拳”。 一、用动态姿态词+专业舞蹈术语构建提示 Midjourn

热心网友
05.12
视觉语言模型VLA发展前景与市场争议深度解析
AI
视觉语言模型VLA发展前景与市场争议深度解析

不能因为VLA有短板,就把世界模型推上神坛。 “So let s all take a moment of silence for our dear friend VLAs They ve served us well, rest in peace, long live World Action

热心网友
05.12
Midjourney视频动作优化指南提示词技巧实战解析
AI
Midjourney视频动作优化指南提示词技巧实战解析

MidJourney视频动作僵硬常因提示词未能描述真实运动规律。优化关键在于:精确描述动作的时间连续性、节奏与物理约束;为关键部位设定稳定性锚点;合理搭配动态参数;将复杂动作拆解为分镜级描述。通过显式排除违反常识的运动,并强化帧间一致性,可显著提升动作的自然流畅度。

热心网友
05.10

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

财务智能化时代财务人员的应对策略与转型路径
业界动态
财务智能化时代财务人员的应对策略与转型路径

财务智能化浪潮正深刻重塑行业格局,这既是严峻挑战,更是历史性机遇。对于广大财务从业者而言,固步自封意味着职业风险,主动转型才是破局关键。那么,财务人员如何应对智能化转型?核心在于积极拥抱变化,将人工智能、大数据等前沿技术内化为自身的核心竞争力。 一、持续学习,实现技能进阶 在智能化时代,学习已成为财

热心网友
05.14
大语言模型AI智能体平台构建与应用指南
业界动态
大语言模型AI智能体平台构建与应用指南

在探讨人工智能的最新进展时,语言大模型已成为一个无法回避的核心议题。它早已超越了实验室研究的范畴,正作为构建新一代AI智能体的关键平台,深刻改变着我们与机器交互、协作乃至共同进化的模式。 那么,语言大模型为何能成为AI发展的基石?其核心优势在于强大的理解与生成能力。通过对海量文本数据的深度学习与算法

热心网友
05.14
大语言模型微调技术详解与实战优化指南
业界动态
大语言模型微调技术详解与实战优化指南

人工智能的浪潮正席卷而来,其中,大语言模型无疑是浪尖上最耀眼的明珠。它们动辄千亿参数的庞大体量,以及背后精妙的深度学习架构,让机器理解并生乘人类语言的能力达到了前所未有的高度。不过,一个现实问题也随之浮现:这些“通才”型巨无霸,如何能精准地服务于千差万别的具体场景?答案的关键,就在于“微调”这项技术

热心网友
05.14
全栈AI虚拟人解决方案与3D数字化定制服务
业界动态
全栈AI虚拟人解决方案与3D数字化定制服务

在数字化浪潮席卷全球的今天,一项融合前沿AI与3D技术的创新解决方案正引领人机交互的新趋势。实在智能重磅推出的全栈AI虚拟人解决方案,深度融合了自然语言处理与3D数字化定制技术,旨在为用户打造前所未有的沉浸式交互体验。这不仅是一次技术升级,更是智能科技迈向人性化、情感化的重要里程碑。 那么,这套AI

热心网友
05.14
流程挖掘算法入门指南与核心方法解析
业界动态
流程挖掘算法入门指南与核心方法解析

在当今企业数字化转型的进程中,流程挖掘技术已成为提升运营效率与管理水平的关键工具。它如同一位专业的“企业流程医生”,能够基于真实数据为企业进行精准诊断并提供优化“处方”。 那么,什么是流程挖掘?简单来说,它是一种从企业信息系统(如ERP、CRM)的事件日志中自动发现、监控和改进实际业务流程的技术。它

热心网友
05.14