GeneOH Diffusion旨在通过去噪扩散技术实现通用的手物交互去噪,提升图像质量。
一个关于具身人工智能领域的阅读资源导航库,收集整理了机器人学习、计算机视觉、视频生成等多个方向的论文列表、社区资源、课程资料和研究工具,为研究者提供系统化的学习参考
FaceLit是一个神经网络驱动的3D重光照人脸生成项目,能够生成在不同光照条件下的人脸图像,广泛应用于计算机视觉和虚拟现实领域。
B-cos Networks旨在通过对齐实现模型的可解释性,提供最先进的性能,适用于各种机器学习任务。
DoubleTake 是一个几何引导的深度估计项目,旨在高效处理稀疏视图,以提升计算机视觉任务中的深度估计精度。
一种通过幂变量投影实现无初始化的大规模束调整的方法,能够高效处理大型数据集并提高调整精度。
这个开源项目是DragGAN的Windows封装版本,提供了一个Windows GUI界面。用户可以直接解压并使用DragGAN工具,无需配置环境。工具内置了17个模型,可以通过拖动等方式对图像中的对象进行姿势、形状、表情和布局调整。
MacGaiver是一个利用计算机视觉技术的macOS助手,能够回答您关于任何应用程序的问题。用户只需按下一个键盘快捷键,即可在当前窗口中询问,获取上下文中的答案,无需离开当前应用。
一个高效的深度学习训练框架,旨在简化模型训练和优化过程,提供了多种预训练模型和工具,适用于计算机视觉任务。
Zoo是一个创新的游乐场,允许用户通过多种文本到图像的AI模型,根据文本输入生成逼真的图像。它利用潜在的文本到图像扩散模型,包括STABILITY-AISTABLE-DIFFUSION 1.5、2.1,AI-FOREVERKANDINSKY-2和OpenAI的DALL-E,提供丰富的探索体验。Zoo是一个开放源代码的项目,为研究人员和开发者提供了一个可访问的协作平台,探索计算机视觉AI的进展与应用。
Remix-DiT是一种采用扩散变换器的模型,旨在通过多专家系统提高图像去噪的性能,适用于多种图像处理任务。
OakInk是一个专注于手物交互的大规模知识库,旨在促进对手与物体之间互动的理解。它支持多种手物交互任务,为研究人员和开发者提供丰富的资源和工具。
GrUMoDepth 是一种通过梯度方法进行的不确定性估计,专注于单目深度估计,旨在提高深度估计的准确性和可靠性。
该项目提供了一种利用多模态半监督学习进行文本识别的方法,结合了标记和未标记数据以提高识别精度。
该项目是一个基于PyTorch实现的Spatial Transformer Network (STN),采用Thin Plate Spline (TPS)技术进行空间变换,能够灵活地对输入图像进行几何变换,支持高效的训练与推理。
Zero123++是一个基于扩散模型的图像生成工具,只需提供一张输入图像,即可生成该图像的多个视角,支持高质量图像的生成,适用于各种类型的图像,为计算机视觉和虚拟现实应用提供强大支持。
Scenic是一个基于JAX的计算机视觉研究库,支持多种计算机视觉任务,利用JAX的高性能特点,提供灵活和模块化的架构。
该网络旨在利用跨模态知识蒸馏技术进行单目3D目标检测,以提高目标检测任务的准确性。
3PSDF是一个用于学习任意拓扑表面的签名距离函数的项目,采用三极点方法,能够高效地重建复杂表面。