2025年最强大的大型视频数据集AI工具推荐

包含真实场景级视频和场景标注的大型数据集，具有10,510个多视角场景，51.2百万帧，分辨率为4k，还包括140个用于新视角合成(NVS)的基准视频以及来自SOTA NVS方法的训练参数，为深度学习的3D视觉任务提供了丰富的场景和标注信息

0

3D视觉任务多视角场景分析大型视频数据集新视角合成

uCO3D开源项目 – 3D世界中的罕见物体数据库

uCO3D是一个3D世界中的罕见物体数据库，包含约17万旋转台视频捕捉来自LVIS分类体系的物体，提供原始视频、对象分割、相机姿态和3种点云数据，是3D视觉研究的宝贵资源。

0

3D物体识别模型训练3D视觉研究增强现实应用虚拟现实应用

Glue Factory开源项目 – CVG的深度学习视觉特征库

Glue Factory是CVG开发的一个库，用于训练和评估深度神经网络，专注于提取和匹配局部视觉特征。

0

模型训练与评估深度学习视觉特征库特征提取与匹配计算机视觉

DenseMatcher开源项目 – 3D语义匹配工具

DenseMatcher是一个用于3D语义匹配的工具，能够从单一示例中学习类别级别的操作，实现高效的3D形状匹配。它支持多种3D形状的处理，适用于机器人抓取、增强现实等多个领域。

0

3D形状匹配DenseMatcher-3D语义匹配工具增强现实机器人抓取

Multiview Scene Graph开源项目 – 多视角场景图生成

该项目提供了从多个视角生成场景图的能力，能够分析复杂的场景关系，提升视觉理解能力。

0

场景图生成多视角场景图生成视觉理解

Annotab Studio官网 – 一个用于数据注释的在线工具

Annotab Studio 是一个基于网页的工具，用于创建和管理数据注释。它为 AI 项目提供了无缝的数据平台，允许用户通过物体检测功能对图像进行标注和注释。

0

AI项目支持图像标注数据注释工具物体检测

Pyttipanna官网 – 基于机器学习的视频创作平台

Pyttipanna是一个为Pytti 5提供接口的框架，旨在利用机器学习模型创建和渲染视频。用户可以通过结构化、叙述和实验化视频创作的提示来实现自己的创意。

0

互动视频课程创新叙事方法机器学习视频分析视频创作平台

MiraData开源项目 – 高质量视频数据集

MiraData是一个高质量的视频数据集，在视频时长、字幕细节、运动强度和视觉质量方面超越了以前的数据集。

0

结构化字幕视频生成模型训练视频生成评估工具运动强度评估

commavq开源项目 – 用于机器学习的视频数据集

包含10万个压缩驾驶视频的数据集，用于机器学习研究，可用于GPT视频预测模型的实验，还包含编码器/解码器和视频预测模型示例

0

GPT视频预测模型机器学习视频数据集编码器解码器示例视频预测模型

GrUMoDepth开源项目 – 基于梯度的不确定性单目深度估计

GrUMoDepth 是一种通过梯度方法进行的不确定性估计，专注于单目深度估计，旨在提高深度估计的准确性和可靠性。

0

三维重建单目深度估计深度估计自动驾驶

BasicAI Cloud官网 – AI驱动的数据标注解决方案

BasicAI Cloud是一个提供AI驱动的训练数据解决方案的平台，专注于数据标注服务，连接AI工程师与标注专家，提升AI和机器学习模型的准确性。该平台拥有超过7年的经验，提供自动标注、对象跟踪和可扩展标签管理等功能。

0

3D边界框创建AI驱动的数据标注解决方案团队协作对象跟踪

MVDD：多视角深度扩散模型-通过多视角深度模型生成高质量点云

MVDD利用多视角深度和扩散模型来表示复杂的三维形状，并将其映射到二维数据格式中。该模型能够生成高质量、密度较高的点云，包含细致的细节，点数可达20,000个以上。

0

三维形状建模动画制作图形设计增强现实

Semi-Supervised Video Semantic Segmentation with Inter-Frame Feature Reconstruction开源项目 – 利用帧间特征重建进行视频语义分割

该项目提供了一种视频语义分割的方法，利用帧间特征重建技术，在半监督学习的框架下提升模型性能，适用于缺乏标注数据的场景。

0

半监督学习帧间特征重建模型性能提升视频语义分割