一个综合使用多种技术栈和开发框架的应用,支持高效的音频处理、语音识别、智能交互和数据分析等功能。
可本地部署的AI语音工具箱,提供语音识别、语音转写、语音转换等功能,支持音频处理、数据集创建和模型训练,适用于音频文件到理想语音模型的转换。
Araby AI提供多种人工智能技术,专注于阿拉伯语应用,适用于自然语言处理、语音识别、图像识别和数据分析等多个领域。用户可以通过注册账户方便地访问这些工具,界面友好,支持阿拉伯语和英语。
实时语音转录是一个先进的转录工具,能够将口语即时转化为格式化文本。它设计高效且准确,非常适合用于会议、采访、讲座等场合。
Music.AI允许公司和开发者构建和扩展音频驱动的AI产品和服务,提供定制化解决方案,支持多种用例。
音频基础模型:支持多语言音频理解的端侧部署工具,具备极低推理延迟,适用于语音识别、语种识别、语音情感识别和声学事件分类/检测
M-AILABS语音数据集:免费提供用于语音识别和语音合成的大型语音数据集,旨在帮助企业和开发者更好地利用人工智能和机器学习技术。
本地语音助手:无需联网即可在个人电脑上运行的语音助手,集成了语音识别和语音合成功能,打造类似电影《钢铁侠》中的 Jarvis 或 Friday 的离线语音助理体验
这是一个基于 ESP32 的 AI 聊天机器人项目,旨在提供智能对话和互动体验。该项目利用 ESP32 硬件平台,支持语音识别和合成,能够与用户进行自然语言对话,具备多种对话场景和功能,并且代码开源,易于修改和扩展。
april-asr是一个用C语言开发的语音转文本(STT)库,具备高效的语音识别算法和实时转录功能,支持多种语言,具有可扩展的架构,便于集成到其他项目中,适用于多种应用场景。
一个有趣的AI项目,可以通过短时间的音频源生成与原声音相似的音频,支持文本输入,基本可以做到以假乱真。
该项目结合了视频语音识别与字幕翻译技术,能够自动识别视频中的语音并生成字幕,同时支持多种语言的翻译功能,旨在提升视频内容的可访问性和多语言观众的体验。
ollama-voice-mac是一个在Mac上完全离线运行的语音助手,利用Mistral 7b模型进行自然语言处理,同时采用Whisper模型进行语音识别,提供用户友好的体验和多种语音指令支持。
Xorbits Inference(Xinference)是一个性能强大且功能全面的分布式推理框架,可用于大语言模型(LLM)、语音识别模型、多模态模型等各种模型的推理,支持多种模型组合,兼容GGML,简化大规模模型的服务过程,甚至可在笔记本电脑上使用。
Betalgo OpenAI是一个Dotnet SDK,旨在将OpenAI的各种模型(如ChatGPT、Whisper、GPT-3和DALL·E)轻松集成到.NET应用程序中,支持多种功能,包括文本生成、语音识别和图像生成。
SnapGPT是一个智能文本识别应用,结合了友好的聊天助手功能,能够轻松从图像和文档中提取文本,并利用先进的GPT-3技术回答与文本相关的问题,同时提供文本转图像和语音转文本等功能,以提高工作效率。