AI创意工具 | AI-magic

基于 baichuan-7B 进行多任务有监督微调的开源多模态大语言模型，建立在 Pleisto 的以数据为中心(Data-centric AI)的工作上。羽人在多轮对话、开放域问答、角色扮演、文本生成、文本理解、图片理解等多个任务上均拥有优异的表现。

一个专注于挖掘多模态视觉语言模型潜力的开源项目，支持从2B到34B不同规模的密集和MoE大型语言模型，具备图像理解、推理和生成的能力。

LLaVA-CoT是第一个能够进行自发、系统推理的视觉语言模型，类似于GPT-01，具有强大的多模式处理能力。该模型通过11B参数的强大架构，支持复杂的视觉语言任务，并在多模式基准测试中表现优于多个现有模型。

FiT3D项目旨在通过3D感知的微调技术来增强2D特征表示，提升图像理解和识别的能力。该项目结合了深度学习和计算机视觉的前沿技术，致力于在多种视觉任务中实现更高的性能。

ChatGLM-6B是一个支持图像理解的多模态对话语言模型，旨在提供更好的中英文对话体验。它通过增强的英文指令微调数据，解决英文回答中夹杂中文词语的问题，提升了用户的交互体验。