Gemini多模态试炼场是一个用于构建实时语音和视频代理的 Python 应用,借助 Google 的新 Gemini 2.0 模型,支持实时语音和视频输入以及音频回应。该应用程序提供两种版本:完整的全栈 web 应用程序和独立的 Python 脚本,方便用户根据需求选择。
将ChatGPT接入亚马逊的智能音箱Alexa的开源项目,允许用户通过语音与ChatGPT进行交互。该项目支持语音输入与输出,并需要用户提供OpenAPI的API Key,用户可以自定义对话设置以满足不同需求。
Ferret是来自苹果的新型多模态大型语言模型,擅长图像理解和语言处理,尤其在理解空间参考方面展现了显著的优势。
FlagAI是一个快速、易于使用和可扩展的大模型工具包,目标是支持在多模态的各种下游任务上训练、微调和部署大规模模型。