视觉语言模型

该项目专注于自动驾驶与智能交通系统中的视觉语言模型研究，涵盖了感知理解、导航规划、决策控制等多个领域，提供最新研究进展和相关论文，旨在推动该领域的发展和应用。

一种优化视觉语言提示上下文的方法，通过知识引导提升交互效果。

一款自由、开放且无审查的图像描述视觉语言模型，专为社区训练扩散模型而设计，支持多样化的图像风格和内容。

利用视觉语言模型（VLMs）为图片自动生成描述的工具，具备自动检测并解决重复序列标题失败的功能，支持多种脚本和模型。该工具旨在提升图像描述的质量与多样性，适用于多种应用场景，如社交媒体、内容创作等。

学习支持工具视觉语言模型

一个致力于医学应用的视觉语言模型集合，旨在解决通用模型在医学领域的挑战，并与专家分割和分类模型集成。

RL-VLM-F是一个结合视觉和语言的强化学习项目，通过利用基础模型的反馈进行学习，旨在优化多模态任务中的决策过程。

该项目汇集了关于视觉Transformer(ViT)和视觉语言模型(VLM)的Token压缩技术的最新研究论文，旨在提高模型效率和性能。

高性能生产级API，用于托管MLX模型，包括视觉语言模型(VLM)和语言模型(LM)，支持多种模型架构，优化资源管理，提供定制化服务

创新的文档检索系统(V-RAG)，无需传统的文本分块，直接利用视觉语言模型处理PDF文档。