先说几个核心判断:GLM-4-Voice 的发布,标志着语音AI领域迈出了重要的一步。它不是简单的“ASR+LLM+TTS”拼凑,而是真正意义上的端到端语音模型——直接在一个模型里完成语音的理解和生成,绕开了“语音转文字再转语音”的中间过程,最大限度保留了原始音频中的语气、情感和语境信息。你可能会问,这有啥特别的?答案就在它的设计思路里。
GLM-4-Voice 是如何练成的?
传统的级联方案,说白了就是让语音先变成文字,再让大模型处理文字,最后让TTS把文字念出来。这一来一回,中间的信息损失几乎不可避免——语气、停顿、语速,以及那些在语音中隐藏的微妙信息,统统被过滤掉了。而端到端模型用“音频 token”直接建模语音,相当于让模型同时听懂了语音里的话和“话外音”。

图|GLM-4-Voice 模型架构图。
GLM-4-Voice 由三个核心组件构成:
首先是 GLM-4-Voice-Tokenizer。它的思路很巧妙:在 Whisper 的 Encoder 部分加入 Vector Quantization,并通过有监督的 ASR 数据进行训练,从而将连续的语音输入转化为离散的 token。效率方面,每秒音频平均只需要 12.5 个离散 token 来表示,这个压缩比相当可观。
然后是 GLM-4-Voice-Decoder。这个解码器基于 CosyVoice 的 Flow Matching 模型结构,支持流式推理。最少只需要 10 个语音 token 就开始生成,可以显著降低端到端对话的延迟。
最后是 GLM-4-Voice-9B——这是模型的“大脑”。它基于 GLM-4-9B 进行语音模态的预训练和对齐,从而具备了理解和生成离散化语音 token 的能力。

图|GLM-4-Voice-Tokenizer 和 GLM-4-Voice-Decoder 的架构。
预训练方面,团队攻克了两个关键难题:智商和表现力。他们的策略是把 Speech2Speech 任务解耦合为两个子任务——“根据用户音频做出文本回复”和“根据文本回复和用户语音合成回复语音”。这种拆分的好处是,可以针对性设计预训练目标,分别用文本预训练数据和无监督音频数据合成语音-文本交错数据来适配。
具体来说,预训练分为两个阶段。
第一阶段:大规模语音-文本联合预训练。这个阶段用了三种类型的语音数据:语音-文本交错数据、无监督语音数据和有监督语音-文本数据。三管齐下,实现了知识迁移(文本和语音模态间)、帮助模型学习真实世界语音特征,以及在基本任务上的性能提升。值得注意的是,GLM-4-Voice-9B 在 GLM-4-9B 基座上经历了数百万小时音频和数千亿 token 的音频文本交错数据预训练,音频理解和建模能力已经有了很好的基础。
第二阶段:监督微调。这一阶段的目标是进一步提升对话能力。研究人员使用了两种对话数据:多轮对话数据和语音风格控制对话数据。前者主要来自文本数据,经过筛选和语音合成以确保质量和多样性;后者则是高质量的对话数据,用来训练模型生成不同风格和语调的语音输出。
此外,在对齐方面,团队设计了一套“流式思考”架构:根据用户语音,模型可以流式交替输出文本和语音两个模态的内容。语音模态以文本为参照来保证内容质量,还能根据用户语音指令做出相应的声音变化——比如模仿某种语气或情绪。这种设计既保留了语言模型的智商,又具备端到端建模的能力,最低只需要输出 20 个 token 就可以开始合成语音,延迟控制得相当好。
效果怎么样?
研究团队从基础模型和聊天模型两个维度进行了评估。
在基础模型层面,他们通过三项任务来考察:语音语言建模、语音问答,以及 ASR 和 TTS。
语音语言建模方面,GLM-4-Voice 在 Topic-StoryCloze 和 StoryCloze 等数据集上的准确率显著领先。比如在“从语音到文本生成”(S→T)任务中,准确率达到了 93.6%,远高于其他模型。在“语音到语音生成”(S→S)任务中,同样在 Topic-StoryCloze 上拿到了 82.9% 的高分,与 Spirit-LM 相当。

图|语音语言建模结果。
语音问答任务上,GLM-4-Voice 在 Web Questions、Llama Questions 和 TriviaQA 等数据集上全面领先。S→T 模态下,TriviaQA 数据集准确率达到 39.1%,相比 Moshi 提升了 16.3 个百分点。S→S 模态下,在 Llama Questions 中的表现甚至达到了 50.7%,大幅领先其他模型。

图|语音问答结果。
在ASR 和 TTS 任务中,GLM-4-Voice 的性能接近甚至超越了专门设计的语音处理模型,这说明端到端方案在通用性和专业性之间找到了一个不错的平衡点。

图|ASR 和 TTS 结果。
再看聊天模型的评估结果。研究团队引入了 ChatGPT 作为自动评分工具,对回答进行多维度评价。GLM-4-Voice 在通用问答(General QA)和知识问答(Knowledge QA)两类任务中得分遥遥领先:General QA 得分 5.40,相比 Llama-Omni(3.50)和 Moshi(2.42)提升显著。Knowledge QA 的表现同样超越其他模型。
语音生成质量方面同样亮眼。模型主观评价指标(MOS)达到 4.45,超过现有基线模型,说明生成的语音更加自然流畅。在文本与语音对齐性测试中,语音转文本误差率(ASR-WER)降至 5.74%,显示出一流的文本-语音一致性。这种能力在多模态交互场景中价值显著。

图|聊天模型评估结果。
从数据来看,GLM-4-Voice 确实交出了一份相当亮眼的成绩单:在语音语言建模、语音问答等任务上表现卓越,同时大幅降低了延迟,显著提升了语音质量和对话能力,整体性能全面超越现有基线模型。这种端到端路线为构建高性能语音交互系统提供了全新路径,也让语音AI向真正实用化和易用化迈出了一大步。
