speech | AI-magic

speech

AudioGPT

AudioGPT是一个开源项目，它能够理解和生成语音、音乐、声音以及说话人形象。除此之外，该项目还提供了可视化工具和人工智能产品。

audiomusicsoundspeech

AI-Waifu-Vtuber

AI-Waifu-Vtuber

AI-Waifu-Vtuber是一个基于VoiceVox Engine、DeepL、Whisper OpenAI、Seliro TTS和VtubeStudio等技术构建的AI伴侣虚拟YouTuber项目。该项目的功能包括生成具备人工智能语音和表情交互能力的虚拟YouTuber角色，支持在流媒体平台上进行直播并与观众互动。其中，VoiceVox Engine用于实现自然的语音合成，DeepL用于机器翻译，Whisper OpenAI用于自然语言处理和对话生成，Seliro TTS用于将文本转化为自然流畅的语音输出，VtubeStudio用于虚拟YouTuber角色的动作捕捉和控制，使其能够进行逼真的表情和动作交互。

openaispeechspeech-recognitionspeech-synthesis

speechgpt

这个开源项目是一个语音聊天应用，名为SpeechGPT。它是免费和开源的，支持100多种语言，具有优秀的隐私保护和语音识别、语音合成功能。它使用机器学习技术，用户可以通过在网页上输入文字或语音与ChatGPT对话。

chatbotlanguage-learningspeechspeech-recognitio

XTTS-声音克隆项目，快速生成AI语音

XTTS-声音克隆项目，快速生成AI语音

XTTS是一个强大的声音克隆项目，用户只需提供几秒钟的音频样本，即可创造出高质量的AI语音克隆。该项目具备出色的零样本克隆能力，并且支持多种语言，能够生成更加自然的语调和表达力。

deep-learningpythonpytorchspeech

Grounded-SAM-检测一切，分割一切，生成一切！

Grounded-SAM-检测一切，分割一切，生成一切！

Grounded-SAM 通过整合多个工具，实现对图片中需要修改部分的识别和分割，提供强大的图像处理能力。

captiondata-generationopen-vocabulary-detspeech

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3