游乐游手机版
首页/AI热点日报/热点详情

LLaMA-Omni:低延迟高质量语音交互模型

类型:热点整理2026-05-30
LLaMA-Omni整合语音编码器、语音适配器、大语言模型和流式语音解码器,实现端到端低延迟语音交互。它绕过中间文本转录,同步生成文本和语音,在InstructS2S-Eval基准测试中表现优于先前模型,响应延迟低至226毫秒,并依托专用数据集InstructS2S-200K训练。

大型语言模型(LLMs)在文本对话领域表现卓越,但当涉及语音输入输出时,挑战便随之而来:延迟与质量往往难以兼得。近年来,随着GPT-4o等技术突破,语音交互响应速度有所提升,但距离理想状态仍有明显差距。那么,核心瓶颈究竟在哪里?

01

LLaMA-Omni:专为与大型语言模型(LLMs)进行低延迟、高质量的语音交互而设计

概述

为了实现与LLM的顺畅语音对话,研究者尝试了多种方案,但各存短板。最常见的方式是采用ASR(自动语音识别)+ TTS(文本到语音)串联架构,虽然简单直接,但每一步都需要等待:先转录语音为文本,再生成文本响应,最后合成语音。这一流程导致响应延迟居高不下。
另一些研究者则走更激进的路线,例如构建多模态语音-语言模型,将语音离散化为“标记”并扩展LLM词表,使其同时具备听与说的能力。理论上很理想,但实践中为保障质量仍需先生成文本,导致响应速度再次受限。此外,还有在语义或声学标记上训练语言模型的方案,或直接将语音编码器接入LLM。这些方法要么消耗海量数据与算力,要么仅解决了“听懂”问题,而忽略了“说好”的需求。

02

LLaMA-Omni的突破性创新

近日,中国科学院大学研究团队提出全新架构——LLaMA-Omni,其核心目标明确:实现低延迟、高质量的语音交互。关键突破在于整合了语音编码器、语音适配器、LLM与流式语音解码器,打通了从语音到语音的完整链路。
具体而言,LLaMA-Omni直接处理语音输入,绕过中间文本转录步骤,大幅降低延迟。其架构由四部分组成:

  • 语音编码器:基于Whisper-large-v3,负责从语音输入中提取有意义的特征。
  • 语音适配器:对编码后的特征进行下采样,并通过两层感知器映射到LLM的嵌入空间。
  • LLM:基于Llama-3.1-8B-Instruct,直接根据语音指令生成文本响应。
  • 语音解码器:一个非自回归流式Transformer,利用连接时序分类(CTC)预测语音对应的离散单元,实现了文本和语音的同步生成。

换言之,用户在听到语音回复的同时,文本也在同步生成——这才是真正意义上的端到端语音交互。

03

LLaMA-Omni的训练与评估

在训练策略上,LLaMA-Omni采用两阶段方法。第一阶段学习从语音指令生成文本响应;第二阶段专注于生成语音响应。推理时,语音解码器在LLM生成文本的同时,实时将结果转换为语音波形。
为了支撑训练与评估,团队还专门创建了新数据集——InstructS2S-200K。该数据集包含20万个语音指令、文本响应与语音响应的三元组,涵盖Alpaca的5万条和UltraChat的15万条条目。数据集的构建流程也经过精心设计:先用Llama-3-70B-Instruct将文本指令改写为更贴近语音的表述,再生成适合语音交互的简洁回复,最后通过CosyVoice-300M-SFT与VITS进行语音合成。这一系列操作使LLaMA-Omni在语音交互任务上奠定了坚实基础。

04

未来展望

在InstructS2S-Eval基准测试中,LLaMA-Omni的表现显著优于此前模型,尤其在语音到文本、语音到语音的内容一致性方面表现突出。更为关键的是,它在语音质量与响应延迟之间取得了良好平衡——延迟低至226毫秒。与其他模型相比,LLaMA-Omni同时生成文本与语音的能力,使解码速度大幅提升。案例研究也显示,其响应更简洁、更详细、更具帮助性,尤其适用于语音交互场景。
总体而言,LLaMA-Omni的意义不仅在于端到端语音交互的突破,更在于提供了一套可复用的方法论:专用训练数据集、优化训练流程,以及合理的模型架构。若未来语音交互模型能沿此思路快速迭代,应用落地的速度或将超出预期。

来源:https://www.53ai.com/news/OpenSourceLLM/2024102048523.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。