文本到视频分数(T2VScore),一个新的评估指标,从文本符合度和视频质量两个维度全面评估视频生成。
一个专门面向长视频生成的电影级数据集,特点是包含完整电影长度的视频、连贯的故事情节和多场景叙事,确保角色外观和音频在不同场景中的一致性,并提供分层的数据结构,包含高层电影信息和详细的镜头级描述
MiraData是一个高质量的视频数据集,在视频时长、字幕细节、运动强度和视觉质量方面超越了以前的数据集。
Mira (Mini-Sora) 是腾讯 PCG ARC 实验室推出的一个高质量长视频生成项目,旨在迈向类似 Sora 的视频生成技术。
HunyuanVideo是一个大型视频生成模型的系统框架,能够生成与领先闭源模型相媲美的视频,支持多模态信息融合和大规模模型训练。该项目旨在提供高效的工具和环境,以促进视频生成技术的发展和应用。
I2VGen-XL是一个基于输入图像生成高清视频的模型,由阿里云达摩院研发,具有良好的泛化性和优越的生成效果。
该项目汇聚了最新的大型视频模型相关论文、代码及数据集,为研究者提供便捷的资源获取途径,促进视频理解领域的发展。
AnyText 是一款支持多语言的视觉文本生成与编辑工具,能够用AI生成或编辑图片中的文字,并与图片风格保持一致,尤其支持中文。它基于扩散模型,集成了辅助潜在模块和文本嵌入模块,使用先进的训练技术,提供了大规模多语言文本图像数据集 AnyWord-3M。
Imagen是一个文本到图像的扩散模型,具有极高的真实感,利用大型变换器语言模型来理解文本并生成高保真图像。它在COCO数据集上取得了7.27的最先进FID分数,并在样本质量和图像-文本对齐方面被人类评审者优先选择。
FIFO-Diffusion是一个无需额外训练即可生成长视频的框架,通过确保每个帧引用足够多的先前帧来生成高质量、一致的长视频。该项目利用预训练的扩散模型,结合算法优化,实现了高效的视频生成和去噪,已在现有的文本到视频生成基线上展示出其有效性。