SentenceX是一个支持多种语言的句子分割库,针对速度和实用性进行了优化,适用于文本到语音和机器翻译等多种应用场景。
Nexa SDK是一款全面支持ONNX和GGML模型的工具包,具备文本生成、图像生成、视觉-语言模型(VLM)、自动语音识别(ASR)和文本到语音(TTS)功能,提供OpenAI兼容的API服务器,支持JSON模式调用函数和流媒体,配备用户友好的Streamlit UI,方便开发者使用和集成。
基于 Gradio 的 WebUI,支持 Whisper、faster-Whisper、whisper-timestamped,具备 YouTube 下载器、声音分离器、转录、文本到语音(TTS)和翻译功能
GPT-SoVITS 是一个适用于中文的语音克隆项目,能够通过短时间的语音数据训练出高质量的文本到语音(TTS)模型。仅需1分钟的语音数据即可进行有效的模型微调,支持多语言推理,并提供易于使用的Web界面,适合初学者创建和管理训练数据集。