人工智能技术加速无声语言研究突破_AI热点日报

人工智能技术加速无声语言研究突破

类型：热点整理2026-07-01

基于肌电图传感器捕捉面部与喉部肌肉活动，训练出能识别未说出话语的“沉默语音”模型。新方法使句子转录单词错误率降低64%，绝对错误率仅4%。研究团队开源近20小时面部肌电数据集，该论文获自然语言处理经验方法活动最佳论文奖。

人工智能技术的持续精进与深度开发，无疑是推动AI真正落地应用的核心所在。然而，除了那些与日常生活紧密相关的应用场景，一个更值得关注的趋势正在悄然兴起——回应少数群体的需求，正成为AI发展的必然方向。

人工智能技术助力无声语言研究

最近，加州大学伯克利分校的研究人员完成了一项颇具创新性的工作：他们利用肌电图（EMG）传感器捕捉面部与喉部的肌肉活动，并借助这些无声的肌肉信号来训练AI。该系统的研究核心，是一个名为“沉默语音”的模型——简单来说，它能够检测到那些你想说但尚未说出口的话语。

研究团队认为，这种方法可以为无法发声的人群带来大量实用的辅助工具。同时，它也能让现有的AI语音助手或其他语音命令设备，具备“读懂默语”的能力。

理想虽然美好，但实现过程并不简单。首先，在数据采集阶段，实验者需要在脸上贴8个贴片，每个贴片都是一个监测肌肉变化的传感器。接着，研究人员需要先录制一段实验者的有声语音，并将这段语音与肌电图数据进行一一对应——即搞清楚“哪块肌肉活动一下，对应的是哪个音”。然后，利用WaveNet解码器生成音频语音预测。在记录数据的过程中，还需要再录制一段“对口型”的肌电图，但这次并不需要发声，也就是真正的“沉默语音”。

最终结果令人惊艳。与基于发声肌电数据的基线模型相比，新方法在句子转录的单词错误率下降了64%，绝对错误率仅为4%，相比基线减少了95%。此外，为促进该领域的研究，团队还开源了一个近20小时的面部肌电数据集。

这篇题为《无声语音的数字发声》的研究论文，在近日举行的自然语言处理经验方法（EMNLP）会议上，荣获了最佳论文奖。

研究小组在论文中写道：“数字化无声语音具有广泛的潜在应用。”例如，它可以打造一种类似蓝牙耳机的设备，让你在不打扰旁人的情况下打电话。更直观的场景是：在环境噪音大得听不清人话的地方，或者必须在保持安静的场合——这种设备的独特价值，便彻底凸显出来了。

来源：https://m.elecfans.com/article/1309211.html

人工智能

延伸阅读

补充最近整理过的热点入口。

人工智能技术加速无声语言研究突破

相关热点

延伸阅读