该项目专注于自动驾驶与智能交通系统中的视觉语言模型研究,涵盖了感知理解、导航规划、决策控制等多个领域,提供最新研究进展和相关论文,旨在推动该领域的发展和应用。
一种优化视觉语言提示上下文的方法,通过知识引导提升交互效果。
一款自由、开放且无审查的图像描述视觉语言模型,专为社区训练扩散模型而设计,支持多样化的图像风格和内容。
利用视觉语言模型(VLMs)为图片自动生成描述的工具,具备自动检测并解决重复序列标题失败的功能,支持多种脚本和模型。该工具旨在提升图像描述的质量与多样性,适用于多种应用场景,如社交媒体、内容创作等。
一个致力于医学应用的视觉语言模型集合,旨在解决通用模型在医学领域的挑战,并与专家分割和分类模型集成。
RL-VLM-F是一个结合视觉和语言的强化学习项目,通过利用基础模型的反馈进行学习,旨在优化多模态任务中的决策过程。
该项目汇集了关于视觉Transformer(ViT)和视觉语言模型(VLM)的Token压缩技术的最新研究论文,旨在提高模型效率和性能。
高性能生产级API,用于托管MLX模型,包括视觉语言模型(VLM)和语言模型(LM),支持多种模型架构,优化资源管理,提供定制化服务
创新的文档检索系统(V-RAG),无需传统的文本分块,直接利用视觉语言模型处理PDF文档。