AI工具AI其他工具

Vary-toy-小型Vary模型,提升视觉信息编码能力

Vary-toy是一个基于Qwen-1.8B的小型Vary模型,引入了改进的视觉词汇,使模型具有更高的普适性和更好的视觉信息编码能力。

Vary-toy是一个基于Qwen-1.8B的小型Vary模型,引入了改进的视觉词汇,使模型具有更高的普适性和更好的视觉信息编码能力。
Vary-toy的特点:
1. 基于Qwen-1.8B的小型模型,适合消费级GPU训练和部署
2. 引入改进的视觉词汇,提高模型的普适性
3. 通过目标检测驱动的正样本数据替代自然图像的负样本
4. 高效编码与自然对象相关的视觉信息
5. 在多项任务上显示出优秀的性能

Vary-toy的功能:
1. 在DocVQA上进行文档视觉问答
2. 在ChartQA上进行图表问答
3. 在RefCOCO上进行参考图像的语义理解
4. 在MMVet上进行医学图像分析

相关推荐

暂无评论

暂无评论...