Fish Speech 1.4 是一个经过 700K 小时语音训练的开源文本转语音模型,支持多种语言,并提供即时语音克隆,具备超低延迟,约1GB的模型重量,模型权重可在Hub上获取。
ChatTTS是专门为对话场景设计的文本转语音模型,支持英文和中文两种语言,提供自然流畅的语音合成和多说话人的支持。