MiraData是一个高质量的视频数据集,在视频时长、字幕细节、运动强度和视觉质量方面超越了以前的数据集。
文本到视频分数(T2VScore),一个新的评估指标,从文本符合度和视频质量两个维度全面评估视频生成。
一个专门面向长视频生成的电影级数据集,特点是包含完整电影长度的视频、连贯的故事情节和多场景叙事,确保角色外观和音频在不同场景中的一致性,并提供分层的数据结构,包含高层电影信息和详细的镜头级描述
由S-Lab、南洋理工大学和上海人工智能实验室联合发布的文本驱动的人物视频生成技术,能够根据用户输入的文本描述生成高质量的人物视频,支持多种风格和场景,提供用户友好的操作界面。
包含10万个压缩驾驶视频的数据集,用于机器学习研究,可用于GPT视频预测模型的实验,还包含编码器/解码器和视频预测模型示例
SoraFlows是一个基于Sora模型的开源AI视频网页创作工具,提供强大的Sora视频编辑器GUI、API和后端支持,旨在通过NextJs和Tailwind CSS实现高质量的提示收集。
Novita是一个快速且经济实惠的AI图像生成API,提供超过10,000个模型,支持自定义模型,适用于各种图像生成任务。其生成速度快至2秒,灵活的定价模式,让用户可以轻松集成AI图像生成到自己的项目中。
包含真实场景级视频和场景标注的大型数据集,具有10,510个多视角场景,51.2百万帧,分辨率为4k,还包括140个用于新视角合成(NVS)的基准视频以及来自SOTA NVS方法的训练参数,为深度学习的3D视觉任务提供了丰富的场景和标注信息
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型