RPG是一种新的无需训练的文本到图像生成/编辑框架,利用多模态LLM的强大推理能力来增强文本到图像扩散模型的组合性。该系统将生成复杂图像的过程分解为子区域内的多个简单生成任务,实现区域化的组合式生成,集成文本引导的图像生成和编辑,显著提高了泛化能力。