![](https://cdn.msbd123.com/ad/ad.png)
SPARC是一种用于从图像-文本对中预训练更精细的多模态表示的方法,通过在描述中的每个token上学习图像块的分组来实现。
SPARC的特点:
1. 学习图像块的分组以对应多个图像块与单个单词
2. 通过细粒度序列损失进行模型训练
3. 在粗粒度信息的图像级任务上表现出改进
4. 在细粒度信息的局部级任务上表现出改进
5. 改善视觉-语言模型的模型可信度和描述生成
SPARC的功能:
1. 用于图像分类任务
2. 用于图像检索
3. 用于目标检测
4. 用于图像分割
相关导航
暂无评论...