西工大开源语音设计模型VoiceSculptor，联合语图智能

首页

AI资讯

热心网友

转载

2026-01-14

VoiceSculptor是什么

VoiceSculptor是由西北工业大学与语图智能等机构联合推出的音色设计模型。它能够通过自然语言指令，实现对语音合成的精细粒度控制。该模型支持对音色的性别、年龄、语速、音调、音量和情感等多种属性进行灵活调整，并结合检索增强生成（RAG）技术，提升了对复杂指令的理解能力。VoiceSculptor生成的音频可用于音色克隆，满足个性化语音合成、虚拟人声和交互式AI等应用场景的需求，推动语音合成技术向更高自由度和可控性发展。

VoiceSculptor— 西工大联合语图智能等开源的音色设计模型

VoiceSculptor的主要功能

自然语言控制音色生成：用户可以通过自然语言指令描述期望的音色特征，如性别、年龄、语速、音调、情感等，实现高度定制化的语音合成。
细粒度属性控制：模型支持对语音的多种属性进行精细调节，包括性别、年龄、语速、音调、音量和情感表达等，满足个性化需求。
检索增强生成（RAG）：通过检索增强技术，模型能更好地理解和生成域外自然语言指令对应的语音，提升泛化能力和鲁棒性。
音色克隆与语音合成：生成的音频可作为提示波形，用于CosyVoice2的音色克隆和下游语音合成任务，实现高效的音色迁移和合成。
角色扮演与多样化语音生成：支持根据不同的角色描述生成对应的语音风格，如悬疑小说演播者、新闻主播、童话旁白等，适应多种应用场景。

VoiceSculptor的技术原理

整体架构：VoiceSculptor由语音设计模块（Voice Design）和语音克隆模块（Voice Clone）组成。语音设计模块基于LLaSA模型生成音色和语音属性，结合XCodec2解码器还原为音频；语音克隆模块将生成的音频作为提示波形，通过CosyVoice2实现音色克隆和语音合成。
语音设计模块（Voice Design）：该模块采用LLaSA模型作为基座，通过联合训练自然语言指令、细粒度属性Token和目标文本，将文本映射为语音特征表示，再由XCodec2解码器将特征向量转换为音频波形，实现自然语言指令控制音色生成。
检索增强生成（RAG）：模型引入检索增强技术，使用Qwen3-Embedding-0.6B将自然语言指令向量化存储于Milvus数据库。推理时，对输入指令进行向量检索，匹配相似指令以增强模型对复杂指令的理解和生成能力。
语音克隆模块（Voice Clone）：语音克隆模块基于CosyVoice2实现，将语音设计模块生成的音频作为提示波形输入，通过音色克隆技术生成与提示波形相似的语音，完成下游语音合成任务。
训练数据与策略：训练数据包括大量标注了音色属性的语音样本，通过持续预训练和有监督微调相结合的方式提升模型性能，确保模型在不同场景下的泛化能力和生成效果。