Llama3-S是一个扩展文本基础的大型语言模型,具备原生的‘听力’能力。通过早期融合模型训练,Llama3-S实现了声音识别与文本理解的有效结合,适用于多种语言处理任务。
Talk是一个基于whisper.cpp和llama.cpp的项目,旨在实现与计算机的直接语音对话。它整合了先进的语音识别和生成技术,支持自然语言处理,能够实时响应用户的语音指令,并提供用户友好的界面,方便易用。
SpeakSync是一款先进的AI语音翻译应用程序,利用ChatGPT的功能提供超过70种语言的实时语言翻译。
ollama-voice-mac是一个在Mac上完全离线运行的语音助手,利用Mistral 7b模型进行自然语言处理,同时采用Whisper模型进行语音识别,提供用户友好的体验和多种语音指令支持。
Qwen2-Audio是一个大规模音频语言模型,支持语音聊天和音频分析,能够处理各种音频信号输入并生成文本回应。
Articula是一款世界上最快和最准确的通话翻译应用,支持实时翻译24种语言的语音和视频通话。用户只需下载并安装应用,选择源语言和目标语言,通话中Articula将自动实时翻译对话,帮助用户与不同语言的人沟通。
Brainworm是一款无缝集成到菜单栏的人工智能应用,提供先进的功能来提升用户的生产力。用户可以通过简单的安装和启动,访问其丰富的功能,帮助管理任务、进行研究和语言翻译。
Chatleh是一个强大的AI工具,可集成到Telegram聊天群组中,提供日常工作支持和教育援助,适用于各个年龄段的用户。它具备文本、图像和音频处理能力,能够提升群组的互动性和效率。
AgentLabs是一个开源的全功能UI服务,旨在快速构建基于聊天的AI助手。它的SDK与后端无关,易于使用,提供内置的实时、异步I/O、对话持久化等功能,帮助开发者高效创建智能助手。
UltimateAI.app是一个允许将白标AI工具嵌入到您的网站、应用或SaaS平台的工具。它通过ChatGPT AI驱动的小部件,帮助您增强客户和用户的体验,使他们能够轻松聊天和生成内容。
摩托罗拉与谷歌云合作,旨在将生成式AI技术应用于Razr智能手机系列,以提升用户体验,提供更先进的智能手机功能和服务。
Seed-TTS能生成与我们说话几乎没有区别的语音,非常逼真。支持英文、中文等。能够处理叙述性、情感表达、描述性等多种文本,能根据不同的情感和语境生成相应的语音!
Canonical AI致力于帮助语音AI开发者优化他们的智能体,通过映射来电者的交互路径,识别来电者在交互中掉线的原因,并提供音频和对话指标,如延迟和寻求代表的查询情况。
这是一个基于Streamlit的实时网页语音转文本应用,能够快速将语音转换为文本,支持多种音频输入方式,易于使用和部署。
GPTHotline是一个基于WhatsApp的AI消息助手,利用ChatGPT的强大功能,方便用户进行信息查询和对话。用户可以通过语音消息与AI互动,获取新闻和分享内容。
riverbed 是一个支持大规模数据挖掘和自然语言处理的工具集,提供多种高效的功能,帮助用户在复杂的数据环境中进行深入分析。
Spirit LM是一个端到端的语音模型,提供基础版和高表现力版,能够进行高效的语音识别和生成,支持直接使用语音标记等多种特性,适用于复杂任务的处理。
可本地部署的AI语音工具箱,提供语音识别、语音转写、语音转换等功能,支持音频处理、数据集创建和模型训练,适用于音频文件到理想语音模型的转换。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型