AudioGPT是一个开源项目,它能够理解和生成语音、音乐、声音以及说话人形象。除此之外,该项目还提供了可视化工具和人工智能产品。
AI-Waifu-Vtuber是一个基于VoiceVox Engine、DeepL、Whisper OpenAI、Seliro TTS和VtubeStudio等技术构建的AI伴侣虚拟YouTuber项目。该项目的功能包括生成具备人工智能语音和表情交互能力的虚拟YouTuber角色,支持在流媒体平台上进行直播并与观众互动。其中,VoiceVox Engine用于实现自然的语音合成,DeepL用于机器翻译,Whisper OpenAI用于自然语言处理和对话生成,Seliro TTS用于将文本转化为自然流畅的语音输出,VtubeStudio用于虚拟YouTuber角色的动作捕捉和控制,使其能够进行逼真的表情和动作交互。
这个开源项目是一个语音聊天应用,名为SpeechGPT。它是免费和开源的,支持100多种语言,具有优秀的隐私保护和语音识别、语音合成功能。它使用机器学习技术,用户可以通过在网页上输入文字或语音与ChatGPT对话。
Coqui TTS是一个开源项目,最新发布了0.15版本。这个版本的功能非常丰富,包括对Bark多语言和语气词的支持,以及语音克隆功能。用户可以通过访问地址/releases/tag/v0.15.0来获取该版本的下载链接。
Grounded-Segment-Anything 是一个开源项目,它可以自动检测、分割和生成图像和文本。该项目是基于 Grounding DINO 和 Meta AI 开源的 Segment Anything 库构建的。