![](https://cdn.msbd123.com/ad/ad.png)
RPG是一种新的无需训练的文本到图像生成/编辑框架,利用多模态LLM的强大推理能力来增强文本到图像扩散模型的组合性。该系统将生成复杂图像的过程分解为子区域内的多个简单生成任务,实现区域化的组合式生成,集成文本引导的图像生成和编辑,显著提高了泛化能力。
RPG的特点:
1. 利用多模态LLM作为全局规划器
2. 将生成复杂图像的过程分解为子区域内的多个简单生成任务
3. 互补的区域扩散以实现区域化的组合式生成
4. 集成文本引导的图像生成和编辑
5. 提高了泛化能力
RPG的功能:
1. 生成复杂图像
2. 对图像进行编辑
3. 实现多类别对象组合
4. 进行文本-图像语义对齐
相关导航
暂无评论...