包含真实场景级视频和场景标注的大型数据集,具有10,510个多视角场景,51.2百万帧,分辨率为4k,还包括140个用于新视角合成(NVS)的基准视频以及来自SOTA NVS方法的训练参数,为深度学习的3D视觉任务提供了丰富的场景和标注信息
uCO3D是一个3D世界中的罕见物体数据库,包含约17万旋转台视频捕捉来自LVIS分类体系的物体,提供原始视频、对象分割、相机姿态和3种点云数据,是3D视觉研究的宝贵资源。
Glue Factory是CVG开发的一个库,用于训练和评估深度神经网络,专注于提取和匹配局部视觉特征。
DenseMatcher是一个用于3D语义匹配的工具,能够从单一示例中学习类别级别的操作,实现高效的3D形状匹配。它支持多种3D形状的处理,适用于机器人抓取、增强现实等多个领域。
该项目提供了从多个视角生成场景图的能力,能够分析复杂的场景关系,提升视觉理解能力。
Annotab Studio 是一个基于网页的工具,用于创建和管理数据注释。它为 AI 项目提供了无缝的数据平台,允许用户通过物体检测功能对图像进行标注和注释。
Pyttipanna是一个为Pytti 5提供接口的框架,旨在利用机器学习模型创建和渲染视频。用户可以通过结构化、叙述和实验化视频创作的提示来实现自己的创意。
MiraData是一个高质量的视频数据集,在视频时长、字幕细节、运动强度和视觉质量方面超越了以前的数据集。
包含10万个压缩驾驶视频的数据集,用于机器学习研究,可用于GPT视频预测模型的实验,还包含编码器/解码器和视频预测模型示例
GrUMoDepth 是一种通过梯度方法进行的不确定性估计,专注于单目深度估计,旨在提高深度估计的准确性和可靠性。
BasicAI Cloud是一个提供AI驱动的训练数据解决方案的平台,专注于数据标注服务,连接AI工程师与标注专家,提升AI和机器学习模型的准确性。该平台拥有超过7年的经验,提供自动标注、对象跟踪和可扩展标签管理等功能。
MVDD利用多视角深度和扩散模型来表示复杂的三维形状,并将其映射到二维数据格式中。该模型能够生成高质量、密度较高的点云,包含细致的细节,点数可达20,000个以上。
该项目提供了一种视频语义分割的方法,利用帧间特征重建技术,在半监督学习的框架下提升模型性能,适用于缺乏标注数据的场景。