爱奇艺基于多模态的台词说话人识别方法_AI热点日报

爱奇艺基于多模态的台词说话人识别方法

类型：热点整理2026-06-29

这是爱奇艺在台词说话人识别技术上的一次关键突破，应用潜力很大。核心内容主要围绕三块：一是这项技术的产生背景和应用场景，二是现有方案存在哪些问题，三是爱奇艺基于多模态的创新方案和优势。 01 背景对影视剧内容来说，剧本包含了整部剧的文本描述——台词和谁在说话，这对理解剧情至关重要。问题在于，长视频平

这是爱奇艺在台词说话人识别技术上的一次关键突破，应用潜力很大。核心内容主要围绕三块：一是这项技术的产生背景和应用场景，二是现有方案存在哪些问题，三是爱奇艺基于多模态的创新方案和优势。

爱奇艺基于多模态的台词说话人识别技术

01 背景

对影视剧内容来说，剧本包含了整部剧的文本描述——台词和谁在说话，这对理解剧情至关重要。问题在于，长视频平台上线的视频，经历了各种改版和剪辑，原始的剧本信息基本是缺失的。台词说话人识别技术正是为了解决这个问题而生的。简单来说，这项技术能从一集长视频里，把不同说话人的片段提取并识别出来，实现对海量视频内容的结构化管理。它的应用价值相当广泛。比如在高光剧情检测中，把说话人识别结果作为输入，送入多模态大模型，可以精准找到预设的各类高光片段，正确率达到85%，相比单纯用台词输入提升了5%左右。不仅如此，作为基础支撑，该技术在视频描述、视频摘要、翻译甚至配音等场景中，也取得了不错的效果，识别精确率和召回率都能做到90%。

目前主流的台词说话人识别方案有两类：基于聚类的级联框架，和端到端的框架。端到端的框架在重叠语音处理场景中更有优势，但影视剧每句台词基本上只对应一个说话人，所以爱奇艺选择的是基于聚类的方案。这个方案的核心流程包括语音分割、声纹特征提取和无监督聚类三个步骤：先用语音活性检测算法（VAD）检测静音段作为分割点，把语音切分成不同片段；再用声纹识别网络提取每段音频的特征；最后用无监督聚类算法对特征进行聚类。但长视频有其特殊性——总时长很长、对话场景类型多样、说话人数不固定，还有插曲和背景音的干扰。更关键的是，同一个人在不同场景、语速、情绪和状态下，声音差异可能会很大。这就导致传统的聚类方案容易出现同一个切分片段包含多个说话人、声纹特征区分度低、聚类效果不理想等问题。

为了解决这些痛点，爱奇艺提出了基于多模态的台词说话人识别技术：以台词起止时间为分割点切分音频片段，利用转场点检测技术把视频切分成多个场景片段，再通过自研的声纹识别模型提取特征，聚类后得到高纯度的台词簇，最后用主动说话人检测算法ASD和人脸识别算法，通过多层级关联策略来确定每段音频的说话人信息。

02 技术方案

整体流程包含三个核心模块：音视频切分模块、声纹特征提取与聚类模块、多层级说话人关联模块。

音视频切分

长视频里有片头、片尾曲，有些剧的片头曲位置还不固定，这些都会干扰聚类效果。因此，爱奇艺结合了场景转场点检测和歌曲识别算法，先去除片头尾和插曲片段，只保留纯净的对话音频。

得到对话音频后，还需要切分成短音频来提取声纹特征。音频切分是整个技术的关键步骤，也是后续模块的基石。由于长视频剧集的对话场景复杂、噪声干扰多，传统的VAD音频分割技术难以满足精度需求。所以，利用长视频内容本身的特性——以台词起止时间作为音频分割依据，就能保证切分后的每一段音频只对应一个说话人。

声纹特征提取与聚类

目前开源的声纹识别数据集大多来自采访、歌舞或有声读物，且以英文为主，几乎没有公开的影视剧场景下的声纹库。爱奇艺利用自身海量的长视频资源，建立了一个大规模影视剧声纹数据集——涵盖影视、综艺、动漫等长视频中的多种对话场景，包括发声状态、环境噪声、传输信道等各方面的复杂性。数据集包含2000个说话人、27万条语音，总时长约200小时。基于这个数据集，爱奇艺自研了声纹识别模型，专门应对复杂场景下的说话人识别问题。与开源模型在不同数据集上的对比结果，如下表所示。

模型对比结果

使用爱奇艺声纹识别模型提取每段音频的特征后，依据场景转场点检测结果，先在场景内聚类，再在整个长视频上聚类。这两步聚类的原则是一致的——优先保证聚类的纯度，而不是数量，为后续的多层级说话人关联打下坚实基础。

多层级说话人关联

通过台词、场景和全集三个层级的关联，最终获得每句台词的说话人信息。在台词粒度，通过ASD和人脸识别结果，为每句台词关联正在说话的人；在场景粒度，利用每个台词的关联结果和对应的声纹属性，得到每个台词簇的说话人信息，并以此矫正簇内部分台词的识别结果；最后在整集上查缺补漏，根据全集聚类的结果，确定上述两个层级未能成功关联的台词簇的说话人信息。

基于多模态的ASD算法是多层级关联模块的关键——它能从镜头中的多个人脸里，找到真正在说话的那个人。影视剧的拍摄手法比较特殊：很多台词对应的视频镜头里，不一定只有说话人，可能同时有多个人在镜头里、说话人背对镜头、甚至说话人根本不在镜头中。如果单纯靠镜头中间出现的人脸，或者以视频中间出现次数多的人作为判断依据，误差会很大。所以必须用ASD算法对镜头中间出现的人进行筛选。爱奇艺设计并采用了一种端到端的说话人检测算法：将候选人脸序列和对应音频作为输入，分别经过视觉和音频特征提取模块处理后，通过基于attention的融合模块得到多模态特征，最后送入检测模块，判断该候选人是否在讲话。

端到端说话人检测算法示意图

03 总结与规划

这套台词说话人识别技术已经在多个业务场景中落地，为视频摘要、视频描述、视频翻译等业务提供了基础技术支撑。后续的研究方向，将从算法模型、聚类算法、增加台词语义等方面继续优化，建立更完备的识别系统，更好地服务于爱奇艺的视频业务。

来源：https://www.53ai.com/news/MultimodalLargeModel/2025012424615.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。