HRS-Bench 是一个全面、可靠且可扩展的基准,专为评估文本到图像模型而设计。它提供了多种性能指标,确保在不同模型规模下的可扩展性和可靠性。
Imagen是一个文本到图像的扩散模型,具有极高的真实感,利用大型变换器语言模型来理解文本并生成高保真图像。它在COCO数据集上取得了7.27的最先进FID分数,并在样本质量和图像-文本对齐方面被人类评审者优先选择。
RepublicLabs.ai 是最新的生成型AI网络服务,允许用户使用单个提示同时生成图像和视频,支持多个模型的比较与选择。
MIMIC-CXR-VQA是一个复杂、多样且大规模的医学领域视觉问答(VQA)数据集,基于MIMIC-CXR数据库,旨在推动医学图像理解和问答系统的研究与应用。数据集包含多种类型的问题和答案,适用于模型的训练和评估,支持多种视觉问答任务。
Densely Captioned Images (DCI) 数据集旨在为图像提供详细的描述,以捕捉视觉细节,适用于计算机视觉领域的多种任务。
Hallucination Leaderboard是一个用于评估大语言模型在生成摘要时的幻觉表现的排行榜,旨在提高对模型输出质量的理解和评估方法的透明度。该项目总结了多个知名语言模型在对短文进行摘要时的幻觉产生频率,目前显示GPT-4和GPT-3.5表现最佳。
质衡: 通用基础模型在底层视觉上的基准测试,包含中文版【底层视觉问答】和【底层视觉描述】数据集,以及中文提示下的图片质量评价。
LLaVA-CoT是第一个能够进行自发、系统推理的视觉语言模型,类似于GPT-01,具有强大的多模式处理能力。该模型通过11B参数的强大架构,支持复杂的视觉语言任务,并在多模式基准测试中表现优于多个现有模型。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型