VLM-Visualizer是一个视觉-语言模型注意力可视化工具,旨在通过结合语言模型和视觉变换器的注意力权重,生成输入图像上的注意力图,以直观展示模型在生成特定令牌时关注图像的哪些部分。
为视觉-语言模型(例如CLIP)提供精心策划的Prompt/Adapter学习方法列表,包含最新的研究进展和代码实现,促进模型的高效学习和应用