南大腾讯发布VITA-1.5 GitHub获1.6K星迈向GPT-4o级实时视频语音交互_AI热点日报

南大腾讯发布VITA-1.5 GitHub获1.6K星迈向GPT-4o级实时视频语音交互

类型：热点整理2026-06-29

近年来，多模态大语言模型的研究热潮主要围绕视觉和文本模态的融合展开，相比之下，语音这个模态得到的关注确实少了一些。但话说回来，在多模态对话系统里，语音扮演的角色其实相当关键——毕竟，人类交流天然就离不开声音。问题在于，视觉和语音这两类信息在本质上有不小的差异，想要在两者上都拿到高水平的表现，并不是一

近年来，多模态大语言模型的研究热潮主要围绕视觉和文本模态的融合展开，相比之下，语音这个模态得到的关注确实少了一些。但话说回来，在多模态对话系统里，语音扮演的角色其实相当关键——毕竟，人类交流天然就离不开声音。问题在于，视觉和语音这两类信息在本质上有不小的差异，想要在两者上都拿到高水平的表现，并不是一件容易的事。

论文标题：VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
论文链接：https://arxiv.org/pdf/2501.01957
代码链接（Star数破千）：https://github.com/VITA-MLLM/VITA
视频 Demo Video：VITA-1.5

这篇工作的核心动机其实很清晰：一是增加语音模态——在已有的视觉-语言多模态模型基础上，补上语音输入和输出的能力，让模型能够高效处理视觉、文本和语音三方面的任务；二是实现快速端到端交互——不依赖独立的ASR（自动语音识别）和TTS（语音合成）模块与LLM做级联，从而把响应速度提上来。

具体来说，VITA-1.5有以下几个主要贡献：

多阶段训练方法：设计了一套精心规划的多阶段训练策略，让大语言模型逐步学会理解视觉和语音信息。这套策略的好处在于，模型在保留已有强大视觉-语言能力的同时，又能额外获得高效的语音对话能力。
端到端 Speech-to-Speech：采用语音输入、语音输出的端到端方式，大幅提升了视觉-语音场景下的综合表现。
实时交互能力：VITA-1.5能做到接近实时的视觉-语音交互，是目前开源领域最快的视觉-语音交互模型。
开源与社区支持：训练和推理代码已经开源，社区反响热烈（目前已获得1.6K GitHub Star）。

整体来看，VITA-1.5的目标是推动多模态交互系统往前走一步，向GPT-4o水平的实时交互靠近。

模型架构

VITA-1.5的整体架构包括输入侧的视觉编码器和音频编码器，以及输出侧的端到端语音生成模块。跟前一版VITA-1.0不同，VITA-1.5不再外设一个独立的TTS模块，而是直接实现了端到端的语音生成能力。整个模型采用“多模态编码器-适配器-LLM”的配置，核心思路是通过联合训练让视觉、语言和语音的理解能力统一起来。

1.1 视觉模态

视觉编码器：选用InternViT-300M作为视觉编码器，输入图像尺寸为448×448像素，每张图像生成256个视觉token。对于高分辨率图像，还引入了动态分块策略来抓取局部细节，提升理解精度。

视频处理：视频被当作多帧图像的组合来处理——长度小于4秒时，均匀采样4帧；4到16秒之间，每秒采1帧；超过16秒，均匀采16帧。值得注意的是，视频帧不使用动态分块，避免生成太多视觉token影响效率。

视觉适配器：通过一个两层MLP，把视觉特征映射成LLM能理解的视觉token。

1.2 音频模态

语音编码器：由多个降采样卷积层（4倍降采样）和24层Transformer块组成，隐藏层维度1024。降采样层能降低音频特征的帧率，提升处理速度。编码器参数量约350M，输出帧率12.5Hz，输入采用Mel-filter bank features。

语音适配器：由多个2倍降采样的卷积层组成，进一步处理音频特征。

语音解码器：采用TiCodec作为Codec模型，使用大小为1024的单一码本，简化了解码过程。编解码器负责把连续语音信号编码成离散语音token，也能解码回24,000Hz的语音信号。为了让LLM能输出语音token，VITA-1.5在文本token基础上增加了两个语音解码器：

非自回归（NAR）语音解码器：对文本token做整体处理，建模语义特征，用于生成初始的语音token分布。
自回归（AR）语音解码器：基于NAR输出的语音信息，逐步生成高质量的语音token。

最终生成的语音token序列通过Codec模型解码成连续的语音信号流。

训练数据

VITA-1.5的多模态指令微调数据覆盖了多种类别，包括图像描述、问答数据，以及中英文数据。在不同的训练阶段，会有选择地使用数据子集来实现不同目标。主要数据类别如下：

图像描述数据：包括ShareGPT4V、ALLaVA-Caption、SharedGPT4o-Image和合成数据，用于训练模型生成图像的描述性语言。
图像问答数据：包括LLaVA-150K、LLaVA-Mixture-sample、LVIS-Instruct、ScienceQA、ChatQA，以及从LLaVA-OV中采样的子集（如一般图像问答和数学推理数据），用于训练模型回答基于图像的问题并执行视觉推理。
OCR与图表数据：包括Anyword-3M、ICDAR2019-LSVT、UReader、SynDOG、ICDAR2019-LSVT-QA，以及从LLaVA-OV中采样的相关数据，用于支持模型理解OCR和图表内容。
视频数据：包括ShareGemini和合成数据，用于训练模型处理视频输入，执行视频描述和基于视频的问答。
纯文本数据：增强模型的语言理解和生成能力，支持文本问答任务。

此外，还引入了语音数据：

11万小时的内部语音-转录配对ASR数据（覆盖中英文），用于训练音频编码器并将其与LLM对齐。
3000小时由TTS系统生成的文本-语音配对数据，用于训练语音解码器。

三阶段训练策略

为了让VITA-1.5在视觉、语言和语音任务上都表现出色，必须解决不同模态之间的训练冲突。举个例子，添加语音数据可能会对视觉内容的理解产生负面影响——因为语音特征和视觉特征差异太大，在学习过程中容易互相干扰。为此，论文设计了一个三阶段的训练策略，核心思想是逐步把不同模态引入模型，让它在增强新模态能力的同时，保住已有模态的能力。

3.1 阶段1：视觉-语言训练

阶段1.1 视觉对齐：目标是弥合视觉和语言的差距。视觉特征通过预训练的InternViT-300M提取，语言由LLM接入。只使用20%的描述性Caption数据，训练时仅更新视觉适配器，其他模块冻结。这样能让LLM初步对齐视觉模态。

阶段1.2 视觉理解：目标是教会LLM转录视觉内容。使用全部描述性Caption数据，视觉模块的编码器、适配器和LLM全部参与训练。模型通过学习视觉相关的描述性文本，获得通过自然语言描述图像的能力。

阶段1.3 视觉指令微调：经过阶段1.2后，模型已经能理解图像和视频的基本内容，但指令跟随能力还比较弱，难以应对视觉问答。这一阶段使用所有问答数据，同时保留20%的描述性Caption数据以增加多样性。视觉模块的编码器、适配器和LLM都可训练，目标是让模型不仅理解视觉内容，还能根据指令回答问题。

3.2 阶段2：音频输入微调

阶段2.1 音频对齐：完成阶段1后，模型在图像和视频理解上已经打下坚实基础。本阶段的目标是缩小语音和语言之间的差异，让LLM能够理解音频输入。训练数据是11,000小时的语音-转录对。采用两步法：

（a）语音编码器训练：使用CTC损失函数训练语音编码器，让它从语音输入中预测转录文本，确保能提取语音特征并映射到文本表示空间。
（b）语音适配器训练：训练完编码器后，将其与LLM集成，用音频适配器把音频特征引入LLM的输入层。这个阶段的训练目标是让LLM输出语音数据的转录文本。此外，在步骤（b）中引入特殊的可训练输入token，引导语音理解过程，帮助LLM执行ASR任务。

阶段2.2 音频指令微调：本阶段重点引入语音问题+文本答案的问答功能。从数据集中抽取4%的Caption数据和20%的问答数据。数据处理上，大约一半的基于文本的问题被随机替换成对应的语音版本（由外部TTS系统生成）。视觉编码器、适配器、音频编码器、适配器以及LLM全部可训练，目的是提高模型对多模态输入的适应性。另外，在LLM的输出端增加一个分类头，用于区分输入是来自语音还是文本，使模型能更灵活地处理不同模态。

3.3 阶段3：音频输出微调

前两个阶段之后，VITA-1.5已经拥有了多模态理解能力。但作为一个交互助手，语音输出是必不可少的。为了在不影响模型基本能力的前提下引入语音输出，论文使用了3,000小时的文本-语音数据，并采用两步训练方法：

阶段3.1 Codec模型训练：使用语音数据训练一个单一码本的Codec模型。编码器能将语音映射成离散token，解码器能将离散token映射回语音信号。在推理阶段，只使用Codec的解码器。

阶段3.2 NAR+AR语音解码器训练：这一步使用文本-语音配对数据。文本输入到LLM的tokenizer和Embedding层获取Embedding向量，语音输入到Codec的编码器获取语音token。文本Embedding被送入非自回归语音解码器（NAR）得到全局语义特征，这些特征再送入自回归语音解码器（AR）预测相应的语音token。LLM在这一阶段完全冻结，所以此前积累的多模态性能不会受影响。

实验发现

4.1 视觉-语言评估

▲ 图像理解能力评测

▲ 视频理解能力评测

上表展示了VITA-1.5在图像理解方面的对比表现。经过三阶段训练后，VITA-1.5的表现可以媲美最先进的开源图像-语言模型，说明它在图像-语言任务上的能力相当扎实。在视频理解评估中，VITA-1.5的表现也与顶尖开源模型相当，但与私有模型还有明显差距——这也是未来可以继续优化的方向。

特别值得一提的是，在第二阶段（音频输入微调）和第三阶段（音频输出微调）训练之后，VITA-1.5几乎完整保留了第一阶段（视觉-语言训练）获得的视觉-语言能力，有效避免了因引入语音信息而导致多模态性能下降的问题。

4.2 语音识别能力评估

基准模型：比较对象包括Wa v2vec2-base、Mini-Omini2、Freeze-Omini和VITA-1.0。

评估基准：中文评估集包含aishell-1、test net、test meeting三个数据集，采用字符错误率（CER）；英文评估集包含dev-clean、dev-other、test-clean、test-other四个数据集，采用词错误率（WER）。

ASR性能：评估结果表明，VITA-1.5在中文和英文ASR任务中都达到了领先的准确性，成功整合了先进的语音能力来支撑多模态交互。

未来工作

VITA-1.5通过精心设计的三阶段训练策略，把视觉和语音整合到了一起。它缓解了模态之间的固有冲突，在视觉和语音理解上都实现了不错的能力，并且摆脱了对独立ASR和TTS模块的依赖。不过，从实验和论文的讨论中，也能看到几个值得继续深挖的方向：

增强语音生成质量：虽然已经有内置的语音生成能力，但进一步提升生成语音的自然度和清晰度——尤其是带有情绪的表达——仍然是一个重要的研究方向。
多模态数据扩展：引入更多样化的多模态数据集，尤其是覆盖更多场景和语言的语音数据，有助于进一步提升模型的泛化能力和适应性。
实时性和效率优化：在保持高性能的同时，进一步优化计算效率和实时响应能力，让模型在资源受限的环境中也能跑得起来。

来源：https://www.53ai.com/news/MultimodalLargeModel/2025010902478.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。