将图像生成、视频生成、音频生成和通用自然语言处理整合到一个界面中,只需一个提示,即可完成所有需求
sherpa-onnx是一个功能强大的框架,支持语音转文字、文字转语音和说话人识别等多种功能。它设计为轻量级,能够在低功耗设备上高效运行,且遵循MIT协议,便于开发者使用和集成。
whisper-cpp-python是whisper.cpp的Python绑定,提供高效的语音识别功能,支持多种音频格式,具有简单易用的API和多线程处理能力。
ChatTTS是专门为对话场景设计的文本转语音模型,支持英文和中文两种语言,提供自然流畅的语音合成和多说话人的支持。
音频领域的大型语言模型集合,专注于音频处理、理解和生成,为音频语言模型提供丰富的资源和工具
Neural Speech Synthesis是由Xu Tan和Hung-yi Lee在2022年Interspeech教程中介绍的一种先进的语音合成技术,利用深度学习算法生成自然流畅的语音,支持多种风格和情感,适用于多种应用场景。
libsio是一个用于语音输入(STT)和输出(TTS)的运行时库,支持高效的语音识别和自然流畅的语音合成,具有良好的跨平台兼容性,易于集成到各种应用程序中。
一个快速且高效的语音转文字(STT)模型,支持多语言自动识别和翻译功能。
OuteTTS是一个实验性的文本到语音模型,采用纯语言建模方法生成语音,致力于提升语音合成的自然性和可控性。
SEPIA 服务器支持通过WebSocket连接进行开源语音识别,易于自定义与扩展,兼容多种语音识别引擎。
noScribe是一个结合了OpenAI Whisper和pyannote技术的语音转录及说话人识别界面,旨在提供高效、用户友好的音频处理体验,支持多种音频格式的输入,能够快速准确地转录语音并识别说话人。
open-tts-tracker是一个专注于收集和比较各类开源文本转语音(TTS)项目的平台,旨在为用户提供最新的TTS模型信息和性能比较,帮助用户选择合适的TTS工具。该项目支持多种语言的文本转语音,拥有用户友好的界面,并且持续更新项目列表,确保信息的时效性。
Audioflare是一个基于Cloudflare AI Workers的全能音频平台,能够转录、分析、摘要和翻译任何音频文件。
Kesha v3.0 是一个实验项目,结合了 Silero 的文本转语音、Vosk 的语音转文本、Picovoice Porcupine 的唤醒词检测和 ChatGPT 的智能对话功能,旨在提供自然流畅的语音交互体验。
这是一个视频翻译配音工具,可将一种语言的视频翻译为指定语言的视频,自动生成和添加该语言的字幕和配音,并支持API调用。
一个离线运行的本地语音识别转文字服务,能够输出json、srt字幕及纯文字格式,支持多种语言和自定义词汇,提供高准确率的语音识别功能。
非常强大的GPT网页客户端,开源、现代化设计的 ChatGPT/LLMs 聊天应用与开发框架,支持语音合成、多模态、可扩展的插件系统。
WhisperX是一个强制时间对齐的时间戳精确版Whisper语音识别工具,能够高效地进行多语言的语音识别,并生成带有精确时间戳的文本转录,适用于各种音频处理场景。
sherpa-ncnn 是一个使用下一代 Kaldi 和 ncnn 构建的实时语音识别系统,支持多种语言和方言,具备低延迟性能,适合各种实时应用场景。它提供灵活的模型部署选项,并兼容 Kaldi 的最新技术,能够满足开发者的多样化需求。
结合 fast-whisper-large-v3, Yi-34B-Chat-AWQ 和 XTTS-v2 的语音聊天项目,推理显存占用 33G。该项目提供高效的语音识别和合成,支持多种语言与方言,确保低延迟的语音交互,适合多种应用场景。
OpenVoice 是一个由 MyShell、MIT、清华大学等机构联合开发的开源语音克隆项目,能够通过极短的语音样本(如3秒)精准克隆音色,支持多语言转换、情感控制和细粒度语音风格调整。其高效处理能力和开源特性使其适用于多种场景,包括个性化语音助手、游戏角色配音、多语言语音内容生成等。
AudioGradio是一个集成了Audiocraft MusicGen和AudioGen的Web界面,用户可以通过简单的操作生成高质量的音频内容,体验音乐创作的乐趣。
该课程提供了基于Transformer架构的音频处理技术,包含丰富的音频数据集和预训练模型,支持多种音频任务如分类、生成和转录,并结合实用示例和代码演示,帮助学习者掌握音频处理的最新技术。
SwiftWhisper是基于Whisper.cpp二次封装后,让Swift方便调用的库,基于它可以方便的开发语音识别转文字类的Whisper应用。
Emotivoice是一个支持情感提示控制的中英双语语音合成TTS引擎,提供多达2000种语音选项,旨在通过情感分析与合成技术提升语音交互体验。
一个名为 insanely-fast-whisper 的新实现,使用 OpenAI's Whisper Large v3,适用于 Mac 或 Nvidia GPU,结合 Whisper + Pyannote 库加速音频转录和语音分段。
Meta 新推出的实时语音翻译模型 Seamless,能保持原声的表情和风格。该模型具备强大的语音生成和翻译能力,超越了现有的技术,提供自然流畅的多语言交流体验。
一个用于文本到语音生成的Web用户界面,支持多种语音合成模型,用户可以轻松创建高质量的语音合成音频。
基于ernerf模型的流式数字人,能够实现高质量的音视频同步对话,适用于商用场景,提供卓越的用户体验。
该项目结合了视频语音识别与字幕翻译技术,能够自动识别视频中的语音并生成字幕,同时支持多种语言的翻译功能,旨在提升视频内容的可访问性和多语言观众的体验。