ColorPeel是一个利用扩散模型,通过颜色和形状的分离来进行颜色提示学习的项目,旨在提高图像生成的灵活性与质量。
利用torchao和diffusers优化扩散模型的端到端方案,支持推理和FP8训练,旨在提升模型的性能和效率。
FIFO-Diffusion是一个无需额外训练即可生成长视频的框架,通过确保每个帧引用足够多的先前帧来生成高质量、一致的长视频。该项目利用预训练的扩散模型,结合算法优化,实现了高效的视频生成和去噪,已在现有的文本到视频生成基线上展示出其有效性。
LACE项目旨在通过扩散模型生成对齐的布局,同时考虑美学约束,以实现更美观的设计效果。
Diffusion Handles通过将激活提升为3D,实现了扩散模型的3D编辑能力,使得用户可以更灵活地处理和修改3D模型。
从零开始实现 Stable Diffusion,系统性讲解其工作原理和背后的数学,并提供训练一个扩散模型的步骤。
RectifiedFlow是一个简单统一的PyTorch代码库,专注于扩散和流模型,提供易于使用的平台用于训练和推理,强调简洁性、灵活性和快速原型设计。
Huggingface Diffusers的OneFlow移植版,比PyTorch版性能更高,支持多种扩散模型,易于集成与使用。
AnyText 是一款支持多语言的视觉文本生成与编辑工具,能够用AI生成或编辑图片中的文字,并与图片风格保持一致,尤其支持中文。它基于扩散模型,集成了辅助潜在模块和文本嵌入模块,使用先进的训练技术,提供了大规模多语言文本图像数据集 AnyWord-3M。
一个创新的药物分子设计AI工具,通过扩散模型学习分子的3D结构、形状、静电特性和药效团的联合分布。
《Hands-On Generative AI with Transformers and Diffusion Models》一书的配套资源库,包含完整的代码示例和练习答案,适合想要系统学习生成式AI的开发者使用。
meta-prompts是一种利用扩散模型处理视觉感知任务的方案,通过引入可学习的元提示到预训练的扩散模型中,以提取适合特定感知任务的特征。该方法旨在提高模型在各种视觉任务中的表现,支持丰富的语义信息提取,满足类别识别、深度感知和关键点感知等需求。
《人体运动扩散模型》的论文代码,旨在高效生成和编辑人体运动,支持多种运动风格和动作捕捉数据。