12月10日,面壁智能正式发布了VoxCPM+ 1.5版本。本次升级在持续优化开发者使用体验的同时,实现了多项核心性能的显著提升。
VoxCPM是一款参数规模为0.5B的语音生成基础模型,最初于今年9月推出。此次发布的1.5版本在音频质量、生成效率和开发灵活性方面均有长足进步。
主要更新内容包括:音频克隆能力得到增强,AudioVAE的采样率从16kHz提升至44.1kHz,能够基于高质量音频样本生成更具真实感、细节更丰富的语音;生成效率实现翻倍,在模型参数略有增加的情况下,仅需6.25个token即可生成1秒音频,相较前代在速度不变的前提下进一步提升了音质;对开发者的支持更为完善,新增LoRA及全量微调脚本,便于用户进行深度定制化训练;同时加强了生成稳定性,有效减少音频伪影,改善了长文本语音合成的表现。
目前,VoxCPM+ 1.5版本已在GitHub与Hugging Face平台开源,供社区使用与协作。
