游乐游手机版
首页/AI热点日报/热点详情

爱奇艺基于多模态的台词说话人识别方法

类型:热点整理2026-06-29
这是爱奇艺在台词说话人识别技术上的一次关键突破,应用潜力很大。核心内容主要围绕三块:一是这项技术的产生背景和应用场景,二是现有方案存在哪些问题,三是爱奇艺基于多模态的创新方案和优势。 01 背景 对影视剧内容来说,剧本包含了整部剧的文本描述——台词和谁在说话,这对理解剧情至关重要。问题在于,长视频平

这是爱奇艺在台词说话人识别技术上的一次关键突破,应用潜力很大。核心内容主要围绕三块:一是这项技术的产生背景和应用场景,二是现有方案存在哪些问题,三是爱奇艺基于多模态的创新方案和优势。

爱奇艺基于多模态的台词说话人识别技术

01 背景

对影视剧内容来说,剧本包含了整部剧的文本描述——台词和谁在说话,这对理解剧情至关重要。问题在于,长视频平台上线的视频,经历了各种改版和剪辑,原始的剧本信息基本是缺失的。台词说话人识别技术正是为了解决这个问题而生的。简单来说,这项技术能从一集长视频里,把不同说话人的片段提取并识别出来,实现对海量视频内容的结构化管理。它的应用价值相当广泛。比如在高光剧情检测中,把说话人识别结果作为输入,送入多模态大模型,可以精准找到预设的各类高光片段,正确率达到85%,相比单纯用台词输入提升了5%左右。不仅如此,作为基础支撑,该技术在视频描述、视频摘要、翻译甚至配音等场景中,也取得了不错的效果,识别精确率和召回率都能做到90%。

目前主流的台词说话人识别方案有两类:基于聚类的级联框架,和端到端的框架。端到端的框架在重叠语音处理场景中更有优势,但影视剧每句台词基本上只对应一个说话人,所以爱奇艺选择的是基于聚类的方案。这个方案的核心流程包括语音分割、声纹特征提取和无监督聚类三个步骤:先用语音活性检测算法(VAD)检测静音段作为分割点,把语音切分成不同片段;再用声纹识别网络提取每段音频的特征;最后用无监督聚类算法对特征进行聚类。但长视频有其特殊性——总时长很长、对话场景类型多样、说话人数不固定,还有插曲和背景音的干扰。更关键的是,同一个人在不同场景、语速、情绪和状态下,声音差异可能会很大。这就导致传统的聚类方案容易出现同一个切分片段包含多个说话人、声纹特征区分度低、聚类效果不理想等问题。

为了解决这些痛点,爱奇艺提出了基于多模态的台词说话人识别技术:以台词起止时间为分割点切分音频片段,利用转场点检测技术把视频切分成多个场景片段,再通过自研的声纹识别模型提取特征,聚类后得到高纯度的台词簇,最后用主动说话人检测算法ASD和人脸识别算法,通过多层级关联策略来确定每段音频的说话人信息。

02 技术方案

整体流程包含三个核心模块:音视频切分模块、声纹特征提取与聚类模块、多层级说话人关联模块。

音视频切分

长视频里有片头、片尾曲,有些剧的片头曲位置还不固定,这些都会干扰聚类效果。因此,爱奇艺结合了场景转场点检测和歌曲识别算法,先去除片头尾和插曲片段,只保留纯净的对话音频。

得到对话音频后,还需要切分成短音频来提取声纹特征。音频切分是整个技术的关键步骤,也是后续模块的基石。由于长视频剧集的对话场景复杂、噪声干扰多,传统的VAD音频分割技术难以满足精度需求。所以,利用长视频内容本身的特性——以台词起止时间作为音频分割依据,就能保证切分后的每一段音频只对应一个说话人。

声纹特征提取与聚类

目前开源的声纹识别数据集大多来自采访、歌舞或有声读物,且以英文为主,几乎没有公开的影视剧场景下的声纹库。爱奇艺利用自身海量的长视频资源,建立了一个大规模影视剧声纹数据集——涵盖影视、综艺、动漫等长视频中的多种对话场景,包括发声状态、环境噪声、传输信道等各方面的复杂性。数据集包含2000个说话人、27万条语音,总时长约200小时。基于这个数据集,爱奇艺自研了声纹识别模型,专门应对复杂场景下的说话人识别问题。与开源模型在不同数据集上的对比结果,如下表所示。

模型对比结果

使用爱奇艺声纹识别模型提取每段音频的特征后,依据场景转场点检测结果,先在场景内聚类,再在整个长视频上聚类。这两步聚类的原则是一致的——优先保证聚类的纯度,而不是数量,为后续的多层级说话人关联打下坚实基础。

多层级说话人关联

通过台词、场景和全集三个层级的关联,最终获得每句台词的说话人信息。在台词粒度,通过ASD和人脸识别结果,为每句台词关联正在说话的人;在场景粒度,利用每个台词的关联结果和对应的声纹属性,得到每个台词簇的说话人信息,并以此矫正簇内部分台词的识别结果;最后在整集上查缺补漏,根据全集聚类的结果,确定上述两个层级未能成功关联的台词簇的说话人信息。

基于多模态的ASD算法是多层级关联模块的关键——它能从镜头中的多个人脸里,找到真正在说话的那个人。影视剧的拍摄手法比较特殊:很多台词对应的视频镜头里,不一定只有说话人,可能同时有多个人在镜头里、说话人背对镜头、甚至说话人根本不在镜头中。如果单纯靠镜头中间出现的人脸,或者以视频中间出现次数多的人作为判断依据,误差会很大。所以必须用ASD算法对镜头中间出现的人进行筛选。爱奇艺设计并采用了一种端到端的说话人检测算法:将候选人脸序列和对应音频作为输入,分别经过视觉和音频特征提取模块处理后,通过基于attention的融合模块得到多模态特征,最后送入检测模块,判断该候选人是否在讲话。

端到端说话人检测算法示意图

03 总结与规划

这套台词说话人识别技术已经在多个业务场景中落地,为视频摘要、视频描述、视频翻译等业务提供了基础技术支撑。后续的研究方向,将从算法模型、聚类算法、增加台词语义等方面继续优化,建立更完备的识别系统,更好地服务于爱奇艺的视频业务。

来源:https://www.53ai.com/news/MultimodalLargeModel/2025012424615.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。