基于 baichuan-7B 进行多任务有监督微调的开源多模态大语言模型,建立在 Pleisto 的以数据为中心(Data-centric AI)的工作上。羽人在多轮对话、开放域问答、角色扮演、文本生成、文本理解、图片理解等多个任务上均拥有优异的表现。
一个专注于挖掘多模态视觉语言模型潜力的开源项目,支持从2B到34B不同规模的密集和MoE大型语言模型,具备图像理解、推理和生成的能力。
LLaVA-CoT是第一个能够进行自发、系统推理的视觉语言模型,类似于GPT-01,具有强大的多模式处理能力。该模型通过11B参数的强大架构,支持复杂的视觉语言任务,并在多模式基准测试中表现优于多个现有模型。
FiT3D项目旨在通过3D感知的微调技术来增强2D特征表示,提升图像理解和识别的能力。该项目结合了深度学习和计算机视觉的前沿技术,致力于在多种视觉任务中实现更高的性能。
ChatGLM-6B是一个支持图像理解的多模态对话语言模型,旨在提供更好的中英文对话体验。它通过增强的英文指令微调数据,解决英文回答中夹杂中文词语的问题,提升了用户的交互体验。