大型语言模型(LLMs)在文本对话领域表现卓越,但当涉及语音输入输出时,挑战便随之而来:延迟与质量往往难以兼得。近年来,随着GPT-4o等技术突破,语音交互响应速度有所提升,但距离理想状态仍有明显差距。那么,核心瓶颈究竟在哪里?
01。

概述
为了实现与LLM的顺畅语音对话,研究者尝试了多种方案,但各存短板。最常见的方式是采用ASR(自动语音识别)+ TTS(文本到语音)串联架构,虽然简单直接,但每一步都需要等待:先转录语音为文本,再生成文本响应,最后合成语音。这一流程导致响应延迟居高不下。
另一些研究者则走更激进的路线,例如构建多模态语音-语言模型,将语音离散化为“标记”并扩展LLM词表,使其同时具备听与说的能力。理论上很理想,但实践中为保障质量仍需先生成文本,导致响应速度再次受限。此外,还有在语义或声学标记上训练语言模型的方案,或直接将语音编码器接入LLM。这些方法要么消耗海量数据与算力,要么仅解决了“听懂”问题,而忽略了“说好”的需求。
02。
LLaMA-Omni的突破性创新
近日,中国科学院大学研究团队提出全新架构——LLaMA-Omni,其核心目标明确:实现低延迟、高质量的语音交互。关键突破在于整合了语音编码器、语音适配器、LLM与流式语音解码器,打通了从语音到语音的完整链路。
具体而言,LLaMA-Omni直接处理语音输入,绕过中间文本转录步骤,大幅降低延迟。其架构由四部分组成:
- 语音编码器:基于Whisper-large-v3,负责从语音输入中提取有意义的特征。
- 语音适配器:对编码后的特征进行下采样,并通过两层感知器映射到LLM的嵌入空间。
- LLM:基于Llama-3.1-8B-Instruct,直接根据语音指令生成文本响应。
- 语音解码器:一个非自回归流式Transformer,利用连接时序分类(CTC)预测语音对应的离散单元,实现了文本和语音的同步生成。
换言之,用户在听到语音回复的同时,文本也在同步生成——这才是真正意义上的端到端语音交互。
03。
LLaMA-Omni的训练与评估
在训练策略上,LLaMA-Omni采用两阶段方法。第一阶段学习从语音指令生成文本响应;第二阶段专注于生成语音响应。推理时,语音解码器在LLM生成文本的同时,实时将结果转换为语音波形。
为了支撑训练与评估,团队还专门创建了新数据集——InstructS2S-200K。该数据集包含20万个语音指令、文本响应与语音响应的三元组,涵盖Alpaca的5万条和UltraChat的15万条条目。数据集的构建流程也经过精心设计:先用Llama-3-70B-Instruct将文本指令改写为更贴近语音的表述,再生成适合语音交互的简洁回复,最后通过CosyVoice-300M-SFT与VITS进行语音合成。这一系列操作使LLaMA-Omni在语音交互任务上奠定了坚实基础。
04。
未来展望
在InstructS2S-Eval基准测试中,LLaMA-Omni的表现显著优于此前模型,尤其在语音到文本、语音到语音的内容一致性方面表现突出。更为关键的是,它在语音质量与响应延迟之间取得了良好平衡——延迟低至226毫秒。与其他模型相比,LLaMA-Omni同时生成文本与语音的能力,使解码速度大幅提升。案例研究也显示,其响应更简洁、更详细、更具帮助性,尤其适用于语音交互场景。
总体而言,LLaMA-Omni的意义不仅在于端到端语音交互的突破,更在于提供了一套可复用的方法论:专用训练数据集、优化训练流程,以及合理的模型架构。若未来语音交互模型能沿此思路快速迭代,应用落地的速度或将超出预期。
