据相关消息,1月22日,通义千问团队宣布Qwen3-TTS系列模型正式开源上线。Qwen3-TTS是一套功能强大的语音生成系统,全面支持音色克隆、音色创造、超高质量拟人化语音合成,并能基于自然语言描述实现精准的语音控制,为开发者和用户提供最全面的语音生成解决方案。
依托创新的Qwen3-TTS-Tokenizer-12Hz多码本语音编码器,Qwen3-TTS实现了对语音信号的高效压缩与强表征能力。它不仅完整保留了副语言信息和声学环境特征,还能通过轻量级的非DiT架构,实现高速、高保真的语音还原。该模型采用Dual-Track双轨建模,达成了极致的双向流式生成速度,首个音频包仅需等待一个字符的处理时间。
Qwen3-TTS多码本全系列模型均已开源,包含1.7B和0.6B两种参数量规格。其中1.7B模型能够达到顶尖性能,具备强大的控制能力;0.6B模型则在性能与效率之间取得了出色平衡。该系列模型覆盖了10种主流语言(包括中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语及意大利语)以及多种方言音色,能够充分满足全球化应用需求。
同时,模型具备强大的上下文理解能力,可根据指令和文本语义自适应调整语气、节奏与情感表达,并对输入文本噪声的鲁棒性有显著提升。目前模型已在开源平台发布,用户也可通过官方API进行体验。
