用于评估视觉语言模型在多样化基准测试中的鲁棒性的Python库,提供60种VLM模型和40种评估基准的全面工具和脚本,支持大规模模型和大规模训练样本,简化视觉语言模型的评估过程
Inspect是一个用于评估大型语言模型性能的框架,提供多种评估指标与方法,支持不同类型的模型,易于与现有机器学习工作流集成,同时支持可视化和结果分析。
MIMIC-CXR-VQA是一个复杂、多样且大规模的医学领域视觉问答(VQA)数据集,基于MIMIC-CXR数据库,旨在推动医学图像理解和问答系统的研究与应用。数据集包含多种类型的问题和答案,适用于模型的训练和评估,支持多种视觉问答任务。
这是一个具有370亿参数的生成式多模态模型,使用统一的自回归目标在大规模多模态序列上进行训练。
专门用于大型语言模型微调和对齐的库,它提供了一系列高效和可扩展的技术,以及广泛的支持方法和指标,旨在简化模型的训练和部署过程
Deita旨在为大型语言模型(LLM)的指令微调提供自动数据选择工具和高质量的对齐数据集,Deita模型能通过比其他SOTA LLM少10倍的指令微调数据进行训练,达到与它们相媲美的性能。
为视觉-语言模型(例如CLIP)提供精心策划的Prompt/Adapter学习方法列表,包含最新的研究进展和代码实现,促进模型的高效学习和应用
SimVG是一个旨在通过解耦的多模态融合技术实现视觉定位的简单框架。该项目支持与视觉语言模型集成,增强视觉定位任务的能力。
Imagen是一个文本到图像的扩散模型,具有极高的真实感,利用大型变换器语言模型来理解文本并生成高保真图像。它在COCO数据集上取得了7.27的最先进FID分数,并在样本质量和图像-文本对齐方面被人类评审者优先选择。