仅仅一周时间,GitHub Star 数量就飙升至 18k,老实说,这样的增长势头完全在意料之中。
直接进入主题,先看演示效果:
英语男声 英语女声 中文男声 中文女声这款工具的定位非常清晰——专门针对对话场景进行优化,例如大语言模型助手这类应用。同时支持中文和英文,覆盖了当前最主流的需求。背后的训练数据量相当可观,超过 10 万小时的中英文语音数据。目前开源版本已在 HuggingFace 上发布,是一个经过 4 万小时预训练但未进行微调的模型版本。
那么,它究竟强在哪里?以下几个关键点值得关注。项目核心亮点
- 对话式 TTS 引擎:经过专门优化,专攻对话任务,生成的语音自然流畅且富有情感表现力。多说话人支持更是点睛之笔,让互动对话真正拥有了生命力。
- 细粒度韵律控制:能够精准预测并控制笑声、停顿、感叹词等微妙韵律特征——把这些细节拿捏到位,语音才不会显得生硬机械。
- 更优的韵律表现:在韵律质量上,ChatTTS 已经超越了市面上大多数开源 TTS 模型。并且提供了预训练模型,方便开发者进一步探索和定制。
生成过程目前仍有些缓慢,请耐心等待~以下是我最终跑出的效果:
