3PSDF是一个用于学习任意拓扑表面的签名距离函数的项目,采用三极点方法,能够高效地重建复杂表面。
Meta最新的开源项目DINOv2,是一个先进的计算机视觉模型,具备自我监督学习功能,能够在没有大量标注数据的情况下进行训练。该模型支持多种功能,包括图像分类、分割、图像检索和深度估计,能够直接从图像中学习特征,而不依赖文本描述,并且可以从任何图像集合中学习。DINOv2的预训练版本已上线,并在多个任务中与CLIP和OpenCLIP竞争。
Zero123++是一个基于扩散模型的图像生成工具,只需提供一张输入图像,即可生成该图像的多个视角,支持高质量图像的生成,适用于各种类型的图像,为计算机视觉和虚拟现实应用提供强大支持。
Remix-DiT是一种采用扩散变换器的模型,旨在通过多专家系统提高图像去噪的性能,适用于多种图像处理任务。
InsPLAD是一个专注于电力线路资产检查的数据集,为机器学习和计算机视觉应用提供多样化的检测场景,用于研究和开发电力设施检查算法。
GeneOH Diffusion旨在通过去噪扩散技术实现通用的手物交互去噪,提升图像质量。
Scenic是一个基于JAX的计算机视觉研究库,支持多种计算机视觉任务,利用JAX的高性能特点,提供灵活和模块化的架构。
这是一个为机器学习、人工智能和数据科学从业者整理的重要GitHub仓库集合,涵盖了多个主题和技术,提供丰富的资源链接。
一个高效的深度学习训练框架,旨在简化模型训练和优化过程,提供了多种预训练模型和工具,适用于计算机视觉任务。
一个关于具身人工智能领域的阅读资源导航库,收集整理了机器人学习、计算机视觉、视频生成等多个方向的论文列表、社区资源、课程资料和研究工具,为研究者提供系统化的学习参考
uCO3D是一个3D世界中的罕见物体数据库,包含约17万旋转台视频捕捉来自LVIS分类体系的物体,提供原始视频、对象分割、相机姿态和3种点云数据,是3D视觉研究的宝贵资源。
该项目提供了一种利用多模态半监督学习进行文本识别的方法,结合了标记和未标记数据以提高识别精度。
B-cos Networks旨在通过对齐实现模型的可解释性,提供最先进的性能,适用于各种机器学习任务。
GrUMoDepth 是一种通过梯度方法进行的不确定性估计,专注于单目深度估计,旨在提高深度估计的准确性和可靠性。
DoubleTake 是一个几何引导的深度估计项目,旨在高效处理稀疏视图,以提升计算机视觉任务中的深度估计精度。
PyTorch是一个开源的深度学习框架,广泛用于计算机视觉和自然语言处理等领域。
一种通过幂变量投影实现无初始化的大规模束调整的方法,能够高效处理大型数据集并提高调整精度。
该项目是一个基于PyTorch实现的Spatial Transformer Network (STN),采用Thin Plate Spline (TPS)技术进行空间变换,能够灵活地对输入图像进行几何变换,支持高效的训练与推理。
MacGaiver是一个利用计算机视觉技术的macOS助手,能够回答您关于任何应用程序的问题。用户只需按下一个键盘快捷键,即可在当前窗口中询问,获取上下文中的答案,无需离开当前应用。