2025年最强大的视频生成模型性能反馈AI工具推荐

文本到视频分数(T2VScore)，一个新的评估指标，从文本符合度和视频质量两个维度全面评估视频生成。

一个专门面向长视频生成的电影级数据集，特点是包含完整电影长度的视频、连贯的故事情节和多场景叙事，确保角色外观和音频在不同场景中的一致性，并提供分层的数据结构，包含高层电影信息和详细的镜头级描述

MiraData是一个高质量的视频数据集，在视频时长、字幕细节、运动强度和视觉质量方面超越了以前的数据集。

Mira (Mini-Sora) 是腾讯 PCG ARC 实验室推出的一个高质量长视频生成项目，旨在迈向类似 Sora 的视频生成技术。

HunyuanVideo是一个大型视频生成模型的系统框架，能够生成与领先闭源模型相媲美的视频，支持多模态信息融合和大规模模型训练。该项目旨在提供高效的工具和环境，以促进视频生成技术的发展和应用。

I2VGen-XL是一个基于输入图像生成高清视频的模型，由阿里云达摩院研发，具有良好的泛化性和优越的生成效果。

该项目汇聚了最新的大型视频模型相关论文、代码及数据集，为研究者提供便捷的资源获取途径，促进视频理解领域的发展。

AnyText 是一款支持多语言的视觉文本生成与编辑工具，能够用AI生成或编辑图片中的文字，并与图片风格保持一致，尤其支持中文。它基于扩散模型，集成了辅助潜在模块和文本嵌入模块，使用先进的训练技术，提供了大规模多语言文本图像数据集 AnyWord-3M。

Imagen是一个文本到图像的扩散模型，具有极高的真实感，利用大型变换器语言模型来理解文本并生成高保真图像。它在COCO数据集上取得了7.27的最先进FID分数，并在样本质量和图像-文本对齐方面被人类评审者优先选择。

FIFO-Diffusion是一个无需额外训练即可生成长视频的框架，通过确保每个帧引用足够多的先前帧来生成高质量、一致的长视频。该项目利用预训练的扩散模型，结合算法优化，实现了高效的视频生成和去噪，已在现有的文本到视频生成基线上展示出其有效性。