MUMU是一个利用多模态图像生成技术,通过交错文本和图像提示生成图像的模型。它结合了视觉编码器和语言模型,使用扩散模型作为图像解码器,基于(标题,图像)数据集构建,能够将不同图像的输入组合成连贯的输出,并支持风格转换和角色一致性任务。