ICASSP:“信号处理”的现代内涵

Alexa首席科学家Ariya Rastrow深入解析声学处理与语言理解之间日益模糊的边界。
作者:Larry Hardesty | 2020年5月4日 | 阅读时间约6分钟
会议:ICASSP 2020
国际声学、语音与信号处理大会(ICASSP)已走过45年历程,根据谷歌学术排名,它在信号处理领域的影响力稳居首位。然而,随着语音技术的快速演化,“信号处理”这一概念的边界早已被大幅拓展。Alexa首席研究科学家Ariya Rastrow直言:“如今的ICASSP已经成为一个大熔炉——从最底层的信号处理,一路延伸至语义理解和自然语言理解,整个技术谱系都涵盖其中。”
Alexa高级首席科学家Ariya Rastrow(图片来源:Jordan Stead)
为何会出现这种转变?Rastrow给出的答案很清晰:人类音频处理系统本身就极其复杂。大脑绝不仅仅是依靠声学信号来识别文字,计算机系统自然也不应如此。
“从人类的角度来看,语言与声学之间的交互非常动态,”Rastrow解释道,“如果在非常安静的环境里交谈,我们可以在声学层面实现高精度捕捉。但如果置身嘈杂的酒吧,人们便会更多依赖先验知识——在语义层面推测对方可能说什么、聊什么话题——然后用这些信息来弥补声音信号的不足。”
传统上,口语理解任务被硬性拆分为两个模块:自动语音识别(ASR),负责将声学信号转换为文字;自然语言理解(NLU),负责理解文字的含义。但实际上,语音识别本身就常常需要借助更高层次的语言特征来推断词语。传统的ASR系统由三个部分构成:声学模型(将声学信号转化为音素)、词典(将音素序列映射到词语)、语言模型(利用词语共现的高层统计信息来裁决不同解释)。
Rastrow回忆:“二十到二十五年前,采用这种分解式系统是一种务实的选择。各组件之间界限分明。传统语音识别系统建立在所谓的隐马尔可夫模型(HMM)架构上,推理时会整合多个知识源,但声学模型与语言模型是分开训练的。”
共享表示
然而,近年来这一范式已被基于神经网络的端到端大规模训练架构所取代——一个单一的神经网络,直接输入声学信号与完整转录输出的样本,从头至尾学习之前散布在ASR各组件中的全部关联关系。
Rastrow说:“好处很多。首先,联合训练使系统在准确性上得到优化。分解式系统的每个组件各自按特定目标函数训练,推理时根本无法应对不流畅和错误。得益于架构进步以及联合训练、多任务训练,系统对这些混乱情况的鲁棒性大幅提升。”
“另一个好处是效率,”他接着说,“通过知识迁移、联合训练或共享表示,系统的不同部分可以共用相同的表示或网络层。这能压缩整体规模、加快执行速度,有机会部署在资源有限的设备和硬件上。”
打个比方:如果你在做声学事件检测,同时还需要做唤醒词检测、耳语检测——这些虽是不同类型的音频分类任务——你可以分开构建系统,也可以进行知识迁移和共享表示学习。凭借共享的网络组件和层,除了准确性提升之外,效率上也收获颇丰。”
“而且整个系统都在神经网络执行框架内完成,我们知道如何在软件和硬件两方面加速。但基于显式知识表示的词典和语言模型系统则不行——它们传统上不是深度学习,我们无法利用这些效率机制。过去两三年,我们一直在朝这个方向推进。”
完全整合
让单个大模型将ASR底层的声学信号处理与高层语言建模加以整合,意味着可以利用更高层的语言特征。举个例子:今年ICASSP上发表的某机构论文中,Alexa研究人员报告了使用语义特征来区分针对Alexa的语音与非针对Alexa的语音——过去这个“设备定向”检测器只依赖声学特征工作。
这种整合的终极形态,自然是一个能够执行完整口语理解任务(包括ASR和NLU)的单一神经网络。
“新兴研究表明,”Rastrow说,“至少对于一部分交互,可以构建一个占用空间较小的单一网络,直接将音频转换为语义层面。延迟更小,不再需要分阶段执行。另外,有研究表明人类并不是逐词识别的——我们会把对话话题和语义的重要信息直接打包进语音里。”
“但挑战依然存在,”他补充,“这些全神经网络系统极度依赖数据。一旦靠近理解层,就必须面对数据稀疏性与独特交互的细微差别。在声学层面,比如音素/p/,即使跨语言也能找到大量样本。可越靠近语义和句子级理解,模式就越独特。”
“一个挑战是,如何将这些直接音频到NLU的新架构与我们在半监督/无监督学习方面的进展结合起来。另一个挑战是,如何把极度依赖数据的学习系统与某种推理或逻辑相结合。”
“举个例子。你说‘打开卧室灯’,Alexa误开了厨房灯,你又说‘不,Alexa,别打开厨房灯’——这就产生了否定问题。你说‘别打开它’时,实际意思是‘关掉它’。这类例子在数据中很难找到。传统上,我们知道如何用规则、逻辑和推理来解决,但单纯依靠数据可能无法给出好的表示。所以未来两三年要研究的就是:如何将这些系统与半监督/无监督学习结合,如何与知识和逻辑结合。”
研究领域
对话式人工智能
标签:人工智能(AI)、自动语音识别(ASR)、信号处理、端到端学习、自然语言理解(NLU)、自然语言处理(NLP)
会议:ICASSP 2020
关于作者:Larry Hardesty,某机构科学博客编辑。曾任《麻省理工科技评论》高级编辑和麻省理工学院新闻办公室计算机科学撰稿人。
