该项目是一份多模态大语言模型相关论文和资源的阅读清单,旨在汇集、分类和整理最新的研究成果,帮助研究人员和开发者了解多模态LLM的进展和最佳实践。
一款强大的多模态大语言模型,能在手机上实现视觉、语音和多模态直播的强大功能,让手机也能拥有类似GPT-4o的智能表现
Mini-LLaVA是一款轻量级的多模态大语言模型,能够处理图像、文本和视频输入,实现高效且灵活的多模态数据处理。其设计旨在简化多模态应用的开发,提供了简约的实现和灵活的接口,方便用户进行快速开发和实验。
NExT-GPT 是一个支持多种输入和输出形式的多模态大语言模型,具有灵活的处理能力,可广泛应用于文本、语音、图像和视频等多种场景。
该项目是一个多模态大语言模型在数学、STEM及编程领域的论文集合,旨在整合和分享最新的研究成果,推动相关领域的创新与发展。
Woodpecker是一种用于多模态大语言模型的幻觉修正工具,旨在提高生成文本的准确性和可靠性。它支持多种输入类型和数据源,集成简单,易于使用,能够有效地纠正生成过程中出现的错误信息。
HPT是HyperGAI的开源多模态大语言模型,能够有效理解文本和视觉输入之间的关系,提供强大的语义理解和生成能力,适用于各种应用场景。
该项目是对多模态大语言模型的全面调查,涵盖最新进展、模型比较和评估以及多种应用场景,信息更新频繁,确保时效性。