游乐游手机版
首页/AI热点日报/热点详情

南大腾讯发布VITA-1.5 GitHub获1.6K星 迈向GPT-4o级实时视频语音交互

类型:热点整理2026-06-29
近年来,多模态大语言模型的研究热潮主要围绕视觉和文本模态的融合展开,相比之下,语音这个模态得到的关注确实少了一些。但话说回来,在多模态对话系统里,语音扮演的角色其实相当关键——毕竟,人类交流天然就离不开声音。问题在于,视觉和语音这两类信息在本质上有不小的差异,想要在两者上都拿到高水平的表现,并不是一

近年来,多模态大语言模型的研究热潮主要围绕视觉和文本模态的融合展开,相比之下,语音这个模态得到的关注确实少了一些。但话说回来,在多模态对话系统里,语音扮演的角色其实相当关键——毕竟,人类交流天然就离不开声音。问题在于,视觉和语音这两类信息在本质上有不小的差异,想要在两者上都拿到高水平的表现,并不是一件容易的事。

论文标题:VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
论文链接:https://arxiv.org/pdf/2501.01957
代码链接(Star数破千):https://github.com/VITA-MLLM/VITA
视频 Demo Video:VITA-1.5

这篇工作的核心动机其实很清晰:一是增加语音模态——在已有的视觉-语言多模态模型基础上,补上语音输入和输出的能力,让模型能够高效处理视觉、文本和语音三方面的任务;二是实现快速端到端交互——不依赖独立的ASR(自动语音识别)和TTS(语音合成)模块与LLM做级联,从而把响应速度提上来。

具体来说,VITA-1.5有以下几个主要贡献:

  1. 多阶段训练方法:设计了一套精心规划的多阶段训练策略,让大语言模型逐步学会理解视觉和语音信息。这套策略的好处在于,模型在保留已有强大视觉-语言能力的同时,又能额外获得高效的语音对话能力。
  2. 端到端 Speech-to-Speech:采用语音输入、语音输出的端到端方式,大幅提升了视觉-语音场景下的综合表现。
  3. 实时交互能力:VITA-1.5能做到接近实时的视觉-语音交互,是目前开源领域最快的视觉-语音交互模型
  4. 开源与社区支持:训练和推理代码已经开源,社区反响热烈(目前已获得1.6K GitHub Star)。

整体来看,VITA-1.5的目标是推动多模态交互系统往前走一步,向GPT-4o水平的实时交互靠近。

模型架构

VITA-1.5的整体架构包括输入侧的视觉编码器和音频编码器,以及输出侧的端到端语音生成模块。跟前一版VITA-1.0不同,VITA-1.5不再外设一个独立的TTS模块,而是直接实现了端到端的语音生成能力。整个模型采用“多模态编码器-适配器-LLM”的配置,核心思路是通过联合训练让视觉、语言和语音的理解能力统一起来。

1.1 视觉模态

视觉编码器:选用InternViT-300M作为视觉编码器,输入图像尺寸为448×448像素,每张图像生成256个视觉token。对于高分辨率图像,还引入了动态分块策略来抓取局部细节,提升理解精度。

视频处理:视频被当作多帧图像的组合来处理——长度小于4秒时,均匀采样4帧;4到16秒之间,每秒采1帧;超过16秒,均匀采16帧。值得注意的是,视频帧不使用动态分块,避免生成太多视觉token影响效率。

视觉适配器:通过一个两层MLP,把视觉特征映射成LLM能理解的视觉token。

1.2 音频模态

语音编码器:由多个降采样卷积层(4倍降采样)和24层Transformer块组成,隐藏层维度1024。降采样层能降低音频特征的帧率,提升处理速度。编码器参数量约350M,输出帧率12.5Hz,输入采用Mel-filter bank features。

语音适配器:由多个2倍降采样的卷积层组成,进一步处理音频特征。

语音解码器:采用TiCodec作为Codec模型,使用大小为1024的单一码本,简化了解码过程。编解码器负责把连续语音信号编码成离散语音token,也能解码回24,000Hz的语音信号。为了让LLM能输出语音token,VITA-1.5在文本token基础上增加了两个语音解码器:

  • 非自回归(NAR)语音解码器:对文本token做整体处理,建模语义特征,用于生成初始的语音token分布。
  • 自回归(AR)语音解码器:基于NAR输出的语音信息,逐步生成高质量的语音token。

最终生成的语音token序列通过Codec模型解码成连续的语音信号流。

训练数据

VITA-1.5的多模态指令微调数据覆盖了多种类别,包括图像描述、问答数据,以及中英文数据。在不同的训练阶段,会有选择地使用数据子集来实现不同目标。主要数据类别如下:

  • 图像描述数据:包括ShareGPT4V、ALLaVA-Caption、SharedGPT4o-Image和合成数据,用于训练模型生成图像的描述性语言。
  • 图像问答数据:包括LLaVA-150K、LLaVA-Mixture-sample、LVIS-Instruct、ScienceQA、ChatQA,以及从LLaVA-OV中采样的子集(如一般图像问答和数学推理数据),用于训练模型回答基于图像的问题并执行视觉推理。
  • OCR与图表数据:包括Anyword-3M、ICDAR2019-LSVT、UReader、SynDOG、ICDAR2019-LSVT-QA,以及从LLaVA-OV中采样的相关数据,用于支持模型理解OCR和图表内容。
  • 视频数据:包括ShareGemini和合成数据,用于训练模型处理视频输入,执行视频描述和基于视频的问答。
  • 纯文本数据:增强模型的语言理解和生成能力,支持文本问答任务。

此外,还引入了语音数据:

  • 11万小时的内部语音-转录配对ASR数据(覆盖中英文),用于训练音频编码器并将其与LLM对齐。
  • 3000小时由TTS系统生成的文本-语音配对数据,用于训练语音解码器。

三阶段训练策略

为了让VITA-1.5在视觉、语言和语音任务上都表现出色,必须解决不同模态之间的训练冲突。举个例子,添加语音数据可能会对视觉内容的理解产生负面影响——因为语音特征和视觉特征差异太大,在学习过程中容易互相干扰。为此,论文设计了一个三阶段的训练策略,核心思想是逐步把不同模态引入模型,让它在增强新模态能力的同时,保住已有模态的能力。

3.1 阶段1:视觉-语言训练

阶段1.1 视觉对齐:目标是弥合视觉和语言的差距。视觉特征通过预训练的InternViT-300M提取,语言由LLM接入。只使用20%的描述性Caption数据,训练时仅更新视觉适配器,其他模块冻结。这样能让LLM初步对齐视觉模态。

阶段1.2 视觉理解:目标是教会LLM转录视觉内容。使用全部描述性Caption数据,视觉模块的编码器、适配器和LLM全部参与训练。模型通过学习视觉相关的描述性文本,获得通过自然语言描述图像的能力。

阶段1.3 视觉指令微调:经过阶段1.2后,模型已经能理解图像和视频的基本内容,但指令跟随能力还比较弱,难以应对视觉问答。这一阶段使用所有问答数据,同时保留20%的描述性Caption数据以增加多样性。视觉模块的编码器、适配器和LLM都可训练,目标是让模型不仅理解视觉内容,还能根据指令回答问题。

3.2 阶段2:音频输入微调

阶段2.1 音频对齐:完成阶段1后,模型在图像和视频理解上已经打下坚实基础。本阶段的目标是缩小语音和语言之间的差异,让LLM能够理解音频输入。训练数据是11,000小时的语音-转录对。采用两步法:

  • (a)语音编码器训练:使用CTC损失函数训练语音编码器,让它从语音输入中预测转录文本,确保能提取语音特征并映射到文本表示空间。
  • (b)语音适配器训练:训练完编码器后,将其与LLM集成,用音频适配器把音频特征引入LLM的输入层。这个阶段的训练目标是让LLM输出语音数据的转录文本。此外,在步骤(b)中引入特殊的可训练输入token,引导语音理解过程,帮助LLM执行ASR任务。

阶段2.2 音频指令微调:本阶段重点引入语音问题+文本答案的问答功能。从数据集中抽取4%的Caption数据和20%的问答数据。数据处理上,大约一半的基于文本的问题被随机替换成对应的语音版本(由外部TTS系统生成)。视觉编码器、适配器、音频编码器、适配器以及LLM全部可训练,目的是提高模型对多模态输入的适应性。另外,在LLM的输出端增加一个分类头,用于区分输入是来自语音还是文本,使模型能更灵活地处理不同模态。

3.3 阶段3:音频输出微调

前两个阶段之后,VITA-1.5已经拥有了多模态理解能力。但作为一个交互助手,语音输出是必不可少的。为了在不影响模型基本能力的前提下引入语音输出,论文使用了3,000小时的文本-语音数据,并采用两步训练方法:

阶段3.1 Codec模型训练:使用语音数据训练一个单一码本的Codec模型。编码器能将语音映射成离散token,解码器能将离散token映射回语音信号。在推理阶段,只使用Codec的解码器。

阶段3.2 NAR+AR语音解码器训练:这一步使用文本-语音配对数据。文本输入到LLM的tokenizer和Embedding层获取Embedding向量,语音输入到Codec的编码器获取语音token。文本Embedding被送入非自回归语音解码器(NAR)得到全局语义特征,这些特征再送入自回归语音解码器(AR)预测相应的语音token。LLM在这一阶段完全冻结,所以此前积累的多模态性能不会受影响。

实验发现

4.1 视觉-语言评估

▲ 图像理解能力评测

▲ 视频理解能力评测

上表展示了VITA-1.5在图像理解方面的对比表现。经过三阶段训练后,VITA-1.5的表现可以媲美最先进的开源图像-语言模型,说明它在图像-语言任务上的能力相当扎实。在视频理解评估中,VITA-1.5的表现也与顶尖开源模型相当,但与私有模型还有明显差距——这也是未来可以继续优化的方向。

特别值得一提的是,在第二阶段(音频输入微调)和第三阶段(音频输出微调)训练之后,VITA-1.5几乎完整保留了第一阶段(视觉-语言训练)获得的视觉-语言能力,有效避免了因引入语音信息而导致多模态性能下降的问题

4.2 语音识别能力评估

基准模型:比较对象包括Wa v2vec2-base、Mini-Omini2、Freeze-Omini和VITA-1.0。

评估基准:中文评估集包含aishell-1、test net、test meeting三个数据集,采用字符错误率(CER);英文评估集包含dev-clean、dev-other、test-clean、test-other四个数据集,采用词错误率(WER)。

ASR性能:评估结果表明,VITA-1.5在中文和英文ASR任务中都达到了领先的准确性,成功整合了先进的语音能力来支撑多模态交互。

未来工作

VITA-1.5通过精心设计的三阶段训练策略,把视觉和语音整合到了一起。它缓解了模态之间的固有冲突,在视觉和语音理解上都实现了不错的能力,并且摆脱了对独立ASR和TTS模块的依赖。不过,从实验和论文的讨论中,也能看到几个值得继续深挖的方向:

  • 增强语音生成质量:虽然已经有内置的语音生成能力,但进一步提升生成语音的自然度和清晰度——尤其是带有情绪的表达——仍然是一个重要的研究方向。
  • 多模态数据扩展:引入更多样化的多模态数据集,尤其是覆盖更多场景和语言的语音数据,有助于进一步提升模型的泛化能力和适应性。
  • 实时性和效率优化:在保持高性能的同时,进一步优化计算效率和实时响应能力,让模型在资源受限的环境中也能跑得起来。
来源:https://www.53ai.com/news/MultimodalLargeModel/2025010902478.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。