一个专注于挖掘多模态视觉语言模型潜力的开源项目,支持从2B到34B不同规模的密集和MoE大型语言模型,具备图像理解、推理和生成的能力。
LLaVA-CoT是第一个能够进行自发、系统推理的视觉语言模型,类似于GPT-01,具有强大的多模式处理能力。该模型通过11B参数的强大架构,支持复杂的视觉语言任务,并在多模式基准测试中表现优于多个现有模型。
Qwen-VL是一个支持多种模态输入的高性能项目,旨在提供图像理解和生成能力,并具备灵活的API接口,适合多种应用场景。
FiT3D项目旨在通过3D感知的微调技术来增强2D特征表示,提升图像理解和识别的能力。该项目结合了深度学习和计算机视觉的前沿技术,致力于在多种视觉任务中实现更高的性能。
Diffbot LLM Inference Server 是一个智能推理服务器,通过实时知识图谱和外部工具来提升语言模型的准确性和实用性,具备多种先进功能,能够处理和理解文本、图像及代码,提供高效的信息提取和检索服务。
BLIP是一个强大的模型,能够根据输入的图片生成相应的文字描述,并且可以回答一些与图片内容相关的简单问题。
meta-prompts是一种利用扩散模型处理视觉感知任务的方案,通过引入可学习的元提示到预训练的扩散模型中,以提取适合特定感知任务的特征。该方法旨在提高模型在各种视觉任务中的表现,支持丰富的语义信息提取,满足类别识别、深度感知和关键点感知等需求。
Ferret是来自苹果的新型多模态大型语言模型,擅长图像理解和语言处理,尤其在理解空间参考方面展现了显著的优势。
ChatGLM-6B是一个支持图像理解的多模态对话语言模型,旨在提供更好的中英文对话体验。它通过增强的英文指令微调数据,解决英文回答中夹杂中文词语的问题,提升了用户的交互体验。
ChatTTS-OpenVoice是一个个性化语音合成助手,通过上传10秒音频剪辑,融合了ChatTTS与OpenVoice技术,能够克隆用户的个性化语音,快速生成高质量的语音输出,提供易于使用的接口,满足用户的不同需求。
femtoGPT 是一个使用纯 Rust 编写的最小生成预训练 Transformer 实现,旨在提供轻量级、高效的自然语言生成能力,易于集成和扩展,适合各种机器学习应用。
FastChat是一个基于Llama-2构建的对话生成项目,支持32k的上下文长度,旨在提供高效的对话生成能力,适用于多种应用场景。它是一个开源项目,易于自定义和扩展,适合开发聊天机器人和进行自然语言处理任务。
ERNIE是百度于2020年开源的生成式模型,旨在通过深度学习技术提高自然语言处理的能力。
Chinese LLaVA是一个支持中英文双语的开源多模态模型,能够进行视觉与文本的结合对话,具备高效的理解能力和灵活的应用场景,适合商用开发。
Chinese LLaMA-Alpaca是一个专注于中文的LLaMA-Alpaca模型,旨在推动中文自然语言处理的研究和应用。该模型基于先进的LLaMA架构,适用于多种中文任务,帮助用户在中文环境中实现更智能的交互与分析。
LAVIS是一个一站式的语言-视觉智能库,支持多种语言-视觉任务,集成多种预训练模型,提供简单易用的API,以及自定义模型的训练和评估,具备高效的推理速度和性能。
这个开源项目是一个chrome插件,它的功能非常强大。它可以调用web api来使用,如果没有GPT4 api。它的主要作用是聊天,可以提供并使用一些聊天功能。
GPT-3 是一个具有 1750 亿参数的强大语言模型,展示了更大的模型在多种实际任务中表现更好的现象。它在自然语言处理领域具有显著的优势,能够理解和生成多种形式的文本。