一种在视频生成中进行运动定制的新颖方法,解决了在视频生成模型中彻底探索运动表示方面存在的广泛差距。
Momentor项目旨在通过精细的时序推理技术,推动视频语言模型的发展,提升视频内容的理解和分析效果。
HunyuanVideo是一个大型视频生成模型的系统框架,能够生成与领先闭源模型相媲美的视频,支持多模态信息融合和大规模模型训练。该项目旨在提供高效的工具和环境,以促进视频生成技术的发展和应用。
FIFO-Diffusion是一个无需额外训练即可生成长视频的框架,通过确保每个帧引用足够多的先前帧来生成高质量、一致的长视频。该项目利用预训练的扩散模型,结合算法优化,实现了高效的视频生成和去噪,已在现有的文本到视频生成基线上展示出其有效性。
基于Video-LLaVA的视频理解模型,针对CinePile基准测试优化,显著提升了对主题探索、叙事分析、角色关系等高层次理解能力,性能接近Claude 3,在视频内容理解方面取得了显著进展
Stable Video Diffusion 是一个可以本地部署的视频生成模型,旨在通过先进的生成技术创建高质量视频内容。该项目基于生成对抗网络(GAN)技术,支持多种输入格式,能够生成多样化的视频内容,并集成了多种预训练模型,便于用户快速上手。
Stable Video 3D是一个生成模型,利用Stable Video Diffusion技术,从单张图片创建3D视频和网格。用户可以轻松地输入一张图片,生成多角度视图和详细的3D网格。
MIMO是一个具有空间分解建模的可控角色视频合成项目,能够通过单个图像生成具有可控属性的视频,支持灵活的2D视频编码和3D动画生成,适用于交互式现实世界场景。
siliconflow提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型