一个专为加速多模态模型(如 PaliGemma、Florence-2 和 Qwen2-VL)微调的工具,简化配置、数据加载、重现性和训练循环的设置。
Nexa SDK是一款全面支持ONNX和GGML模型的工具包,具备文本生成、图像生成、视觉-语言模型(VLM)、自动语音识别(ASR)和文本到语音(TTS)功能,提供OpenAI兼容的API服务器,支持JSON模式调用函数和流媒体,配备用户友好的Streamlit UI,方便开发者使用和集成。
达摩院开源的视觉-语言预训练的语料库,包含从在线教学视频中提取的多模态数据,支持多种学科的学习和研究。
一个开放的生物医学图像-标题档案库、数据集和从科学文献中衍生的视觉-语言模型,旨在帮助研究人员更好地理解和利用生物医学图像及相关文献信息
VLM-Visualizer是一个视觉-语言模型注意力可视化工具,旨在通过结合语言模型和视觉变换器的注意力权重,生成输入图像上的注意力图,以直观展示模型在生成特定令牌时关注图像的哪些部分。
该项目提供遥感基础模型相关论文的资源列表,涵盖遥感视觉、视觉-语言、生成式、位置和音频等多个方向的模型,旨在为研究人员提供全面的参考和支持。
为视觉-语言模型(例如CLIP)提供精心策划的Prompt/Adapter学习方法列表,包含最新的研究进展和代码实现,促进模型的高效学习和应用
一种用于视觉-语言预训练的多模态数据集,通过将图像和文本交错排列,提供丰富的基础知识,帮助模型更好地理解和生成多模态内容
面向生产的大语言模型构建指南配套代码,提供丰富的Jupyter笔记本,帮助开发者深入理解和实践LLM的应用开发。该项目旨在帮助开发者通过实际操作掌握大语言模型的构建与应用,通过示例代码和文档支持自学和项目开发。
LLMPlus是一个Python包,旨在帮助开发者使用本地的大型语言模型(LLMs)来构建AI应用。它提供了简洁的接口,以便进行提示工程,支持加载LLM模型、嵌入模型和向量数据库的类。通过自定义提示工程和RAG技术,开发者可以轻松创建LLM应用。
Aquila语言大模型是在中英文高质量语料基础上从0开始训练的开源语言模型,具备更高效的训练效率和优秀的性能。
Deita旨在为大型语言模型(LLM)的指令微调提供自动数据选择工具和高质量的对齐数据集,Deita模型能通过比其他SOTA LLM少10倍的指令微调数据进行训练,达到与它们相媲美的性能。
Yachay AI是一个基于Byt5的地理标记模型,能够仅通过文本预测坐标。它为开发者提供了支持,以便构建和训练自己的模型,并在Github上提供相关资源和问答支持。
该项目是对多模态大语言模型的全面调查,涵盖最新进展、模型比较和评估以及多种应用场景,信息更新频繁,确保时效性。
Composable Prompts是一个顶尖平台,旨在快速构建、测试和部署基于大型语言模型(LLMs)的任务和API。它为LLMs的世界带来了组合、模板、测试、缓存和可视化等功能,使开发者能够高效地创建强大的提示,重用它们,并在不同环境中进行测试。同时,它通过智能缓存优化性能和成本,并允许轻松切换模型和运行环境。
用于评估视觉语言模型在多样化基准测试中的鲁棒性的Python库,提供60种VLM模型和40种评估基准的全面工具和脚本,支持大规模模型和大规模训练样本,简化视觉语言模型的评估过程
DirectAI使用户能够快速构建强大的计算机视觉模型,无需编码或训练数据。它利用大型语言模型和零样本学习,根据用户的描述生成适合的模型。