CoDi-2是一种多功能、交互式的多模态大语言模型 (MLLM),它可以以任意对任意的方式遵循复杂的多模态交错指令、进行上下文学习 (ICL)、推理、聊天、编辑等。
该项目是一份多模态大语言模型相关论文和资源的阅读清单,旨在汇集、分类和整理最新的研究成果,帮助研究人员和开发者了解多模态LLM的进展和最佳实践。
一款强大的多模态大语言模型,能在手机上实现视觉、语音和多模态直播的强大功能,让手机也能拥有类似GPT-4o的智能表现
NExT-GPT 是一个支持多种输入和输出形式的多模态大语言模型,具有灵活的处理能力,可广泛应用于文本、语音、图像和视频等多种场景。
该项目是一个多模态大语言模型在数学、STEM及编程领域的论文集合,旨在整合和分享最新的研究成果,推动相关领域的创新与发展。
Woodpecker是一种用于多模态大语言模型的幻觉修正工具,旨在提高生成文本的准确性和可靠性。它支持多种输入类型和数据源,集成简单,易于使用,能够有效地纠正生成过程中出现的错误信息。
该项目是一个集成多种遥感数据源的多模态大语言模型,旨在提升视觉与语言的理解能力,支持遥感数据的分析与应用。
HPT是HyperGAI的开源多模态大语言模型,能够有效理解文本和视觉输入之间的关系,提供强大的语义理解和生成能力,适用于各种应用场景。
该项目汇总了与多模态大语言模型(LLM)相关的研究论文和资源,提供最新的研究趋势和进展,支持多种模态的学习方法,适用于学术研究和工程实践。
该项目是一个多模态大语言模型(MLLM)幻觉相关论文资源列表,汇集了关于MLLM中幻觉现象的研究论文,提供分类、标签和摘要,便于研究人员快速获取信息,并持续更新确保资源的时效性。
VCoder是一个多功能视觉编码器,旨在提升多模态大语言模型的感知能力,支持图像推理和生成任务,能够识别和计算图像中的物体,同时提供分割和深度图等感知模式,并利用COCO数据集进行训练和评估。
该项目是对多模态大语言模型的全面调查,涵盖最新进展、模型比较和评估以及多种应用场景,信息更新频繁,确保时效性。
MM-LLM是一个增强现有大型语言模型的框架,支持多模态输入和输出,同时保持其推理和决策能力。该项目提供全面的模型架构和训练管道设计,并回顾了在主流基准上的表现,旨在推动多模态任务的发展。
Awesome_Multimodal是一个精心策划的GitHub项目,提供关于多模态大语言模型(MLLM)的全面资源集合。
该项目提供系统化的深度学习学习资料,专注于大语言模型的对齐,涵盖多种深度学习技术和方法,适合不同水平的学习者。
以爱丽丝漫游“可微分”仙境为比喻,向读者介绍神经网络领域的入门书,涵盖自动微分优化函数、序列、图、文本和音频处理的设计技术。