VITA是一个接近GPT-4o级别的开源实时视觉语音交互模型,能够理解图片和视频内容,并用语音回答用户的问题。
aichat 是一个在终端中使用 ChatGPT/GPT-3.5/GPT-4 的小工具,用户可以通过它与 AI 进行自然语言对话,或使用命令模式发送特定指令,从而实现更精准的交互。
这个开源项目是一个智能、多功能的通用数据库SQL客户端和报表工具。它不仅可以与各种数据库进行交互,执行SQL查询和操作,还具备ChatGPT功能,可以进行智能对话和自然语言查询。这使得用户可以通过简单的对话方式与数据库进行交互,提取需要的信息或生成报表。该项目的目标是提供一个强大且易于使用的工具,使用户能够更高效地管理和分析数据库中的数据。
Qwen2-Audio是一个大规模音频语言模型,支持语音聊天和音频分析,能够处理各种音频信号输入并生成文本回应。
Continue是一个开源的VS Code扩展,它将ChatGPT的强大功能整合到VS Code中,支持自动补全、自然语言编辑和代码重构等功能,旨在提升开发者的编码效率和体验。
Whisper Turbo是一个跨平台的GPU加速版Whisper,能够在客户端浏览器或Electron应用里运行,提供高效的语音识别功能,便于开发者集成,支持多种音频格式的识别和实时语音处理。
LLaVA是一个大型语言和视觉助理,结合了最新的GPT-4模型,能够处理多种模式的输入和输出,支持视觉和语言的深度理解,设计轻量,易于部署,适用于多种应用场景。
基于Azure AI Search和OpenAI实现的语音RAG示例应用。支持语音界面进行知识库问答,集成了Azure OpenAI的GPT-4实时语音API,可实现语音输入、知识检索、语音输出和引用来源等功能。特别适合需要语音交互的AI应用场景。
Vocode是一个让用户能够轻松构建基于语音的LLM应用程序的工具。它支持实时流式对话,可以将应用程序部署到电话呼叫、Zoom会议等多种场景中。同时,它也适合构建个人助手或类似基于语音的棋类应用,具备模块化设计,便于扩展,且为开源项目,受益于社区的不断发展。
这个开源项目的功能是利用ChatGPT进行对话,并且可以在聊天过程中发送和接收图像,同时能够将对话指令翻译成Stable Diffusion的prompt,并利用Stable Diffusion和ControlNet生成用户想要的图片。
Xpeacho是一个基于AI的文本转语音(TTS)服务,能够即时将任何文本转换为100%自然的人声配音。它专为视频创作者设计,提供用户友好的界面,支持多种语言选项和语音效果。
Leelo是一款专为企业设计的AI驱动文本转语音工具,能够将文本转换为自然流畅的音频,帮助企业提升内容传播效果。
CloudSoul是一个基于AI的SaaS平台,允许用户通过自然语言对话输入,快速、轻松地部署云基础设施。无论用户的技术水平如何,只需简单的指令即可完成复杂的云配置,极大地简化了传统云服务的使用流程。