一种处理噪声标签的少样本学习方法,旨在提高模型在标签不准确情况下的学习能力。该方法利用少量标记样本进行训练,具备对标签噪声的鲁棒性,适用于图像分类等任务。
Hiera是一个层次化视觉变换器,专注于视觉任务,优化性能并避免不必要的复杂性。
Residual Attention是一种简单但有效的多标签识别方法,利用残差注意机制,能够在多标签任务中表现出色。
CMT是一个结合卷积神经网络和视觉变换器优势的项目,旨在提升图像分类和目标检测的性能,具有广泛的应用前景。
QA-CLIP是一个支持中文文本和图像的多模态理解的模型,具有最先进的性能和准确性,能够用于多种下游任务,如图像分类、文本生成等,且易于集成和使用。
该项目提供了Vision Transformer在Tensorflow中的完整实现,支持多种数据集和任务,易于扩展和修改,并包含详细的使用示例和文档,帮助用户快速上手并深入了解模型的应用与性能。
Meta最新的开源项目DINOv2,是一个先进的计算机视觉模型,具备自我监督学习功能,能够在没有大量标注数据的情况下进行训练。该模型支持多种功能,包括图像分类、分割、图像检索和深度估计,能够直接从图像中学习特征,而不依赖文本描述,并且可以从任何图像集合中学习。DINOv2的预训练版本已上线,并在多个任务中与CLIP和OpenCLIP竞争。
计算机视觉Recipes项目提供了计算机视觉领域的最佳实践、丰富的代码示例和详细的相关文档,支持多种计算机视觉任务,如图像分类、目标检测等,旨在帮助开发者快速上手并实现各类计算机视觉功能。
CRATE是一个完全数学可解释的白盒Transformer模型,旨在通过统一多种模型架构实现高效的稀疏率降低,已在真实世界数据集ImageNet-1K上取得接近的性能。它整合了Transformer模型、自注意力、扩散模型和降噪技术,并通过展开迭代优化导出深层网络层。
GroupMixFormer是一种高效神经网络架构,基于Group-Mix Attention机制,旨在显著提升各种视觉任务的性能,特别是在图像分类、目标检测和语义分割等领域。
JoyTag是一个开源图像标注模型,专注于积极性和包容性,使用Danbooru标注方案,适用于从手绘到摄影等各种类型的图像。该模型基于ViT-B/16架构,经过660M个样本的训练,支持5000多个标签,能够对输入图像输出对5000多个不同标签的预测结果。
Imagga是一款图像识别API,提供图像标签、分类、视觉搜索和内容审核等解决方案。用户可以通过云端或本地部署的方式访问API,将其集成到应用程序或平台中,利用其强大的功能。