LLaMA-Omni：低延迟高质量语音交互模型_AI热点日报

LLaMA-Omni：低延迟高质量语音交互模型

类型：热点整理2026-05-30

LLaMA-Omni整合语音编码器、语音适配器、大语言模型和流式语音解码器，实现端到端低延迟语音交互。它绕过中间文本转录，同步生成文本和语音，在InstructS2S-Eval基准测试中表现优于先前模型，响应延迟低至226毫秒，并依托专用数据集InstructS2S-200K训练。

大型语言模型（LLMs）在文本对话领域表现卓越，但当涉及语音输入输出时，挑战便随之而来：延迟与质量往往难以兼得。近年来，随着GPT-4o等技术突破，语音交互响应速度有所提升，但距离理想状态仍有明显差距。那么，核心瓶颈究竟在哪里？

01。

LLaMA-Omni：专为与大型语言模型（LLMs）进行低延迟、高质量的语音交互而设计

概述

为了实现与LLM的顺畅语音对话，研究者尝试了多种方案，但各存短板。最常见的方式是采用ASR（自动语音识别）+ TTS（文本到语音）串联架构，虽然简单直接，但每一步都需要等待：先转录语音为文本，再生成文本响应，最后合成语音。这一流程导致响应延迟居高不下。
另一些研究者则走更激进的路线，例如构建多模态语音-语言模型，将语音离散化为“标记”并扩展LLM词表，使其同时具备听与说的能力。理论上很理想，但实践中为保障质量仍需先生成文本，导致响应速度再次受限。此外，还有在语义或声学标记上训练语言模型的方案，或直接将语音编码器接入LLM。这些方法要么消耗海量数据与算力，要么仅解决了“听懂”问题，而忽略了“说好”的需求。

02。

LLaMA-Omni的突破性创新

近日，中国科学院大学研究团队提出全新架构——LLaMA-Omni，其核心目标明确：实现低延迟、高质量的语音交互。关键突破在于整合了语音编码器、语音适配器、LLM与流式语音解码器，打通了从语音到语音的完整链路。
具体而言，LLaMA-Omni直接处理语音输入，绕过中间文本转录步骤，大幅降低延迟。其架构由四部分组成：

语音编码器：基于Whisper-large-v3，负责从语音输入中提取有意义的特征。
语音适配器：对编码后的特征进行下采样，并通过两层感知器映射到LLM的嵌入空间。
LLM：基于Llama-3.1-8B-Instruct，直接根据语音指令生成文本响应。
语音解码器：一个非自回归流式Transformer，利用连接时序分类（CTC）预测语音对应的离散单元，实现了文本和语音的同步生成。

换言之，用户在听到语音回复的同时，文本也在同步生成——这才是真正意义上的端到端语音交互。

03。

LLaMA-Omni的训练与评估

在训练策略上，LLaMA-Omni采用两阶段方法。第一阶段学习从语音指令生成文本响应；第二阶段专注于生成语音响应。推理时，语音解码器在LLM生成文本的同时，实时将结果转换为语音波形。
为了支撑训练与评估，团队还专门创建了新数据集——InstructS2S-200K。该数据集包含20万个语音指令、文本响应与语音响应的三元组，涵盖Alpaca的5万条和UltraChat的15万条条目。数据集的构建流程也经过精心设计：先用Llama-3-70B-Instruct将文本指令改写为更贴近语音的表述，再生成适合语音交互的简洁回复，最后通过CosyVoice-300M-SFT与VITS进行语音合成。这一系列操作使LLaMA-Omni在语音交互任务上奠定了坚实基础。

04。

未来展望

在InstructS2S-Eval基准测试中，LLaMA-Omni的表现显著优于此前模型，尤其在语音到文本、语音到语音的内容一致性方面表现突出。更为关键的是，它在语音质量与响应延迟之间取得了良好平衡——延迟低至226毫秒。与其他模型相比，LLaMA-Omni同时生成文本与语音的能力，使解码速度大幅提升。案例研究也显示，其响应更简洁、更详细、更具帮助性，尤其适用于语音交互场景。
总体而言，LLaMA-Omni的意义不仅在于端到端语音交互的突破，更在于提供了一套可复用的方法论：专用训练数据集、优化训练流程，以及合理的模型架构。若未来语音交互模型能沿此思路快速迭代，应用落地的速度或将超出预期。

来源：https://www.53ai.com/news/OpenSourceLLM/2024102048523.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。

LLaMA-Omni：低延迟高质量语音交互模型

相关热点

延伸阅读