CheXagent是一个基于视觉和语言的基础模型,专注于胸部X光片的解读,旨在解决医学图像领域中大规模视觉-语言数据集的有限性等挑战。该模型利用大规模的指令微调数据集CheXinstruct,设计了一个临床大型语言模型(LLM)和一个用于表示X射线图像的视觉编码器,同时连接视觉和语言模态的网络,提供了新的评估基准CheXbench用于系统评估。
Vary-toy是一个基于Qwen-1.8B的小型Vary模型,引入了改进的视觉词汇,使模型具有更高的普适性和更好的视觉信息编码能力。