![](https://cdn.msbd123.com/ad/ad.png)
MUMU是一个利用多模态图像生成技术,通过交错文本和图像提示生成图像的模型。它结合了视觉编码器和语言模型,使用扩散模型作为图像解码器,基于(标题,图像)数据集构建,能够将不同图像的输入组合成连贯的输出,并支持风格转换和角色一致性任务。
MUMU的特点:
1. 结合视觉编码器和语言模型
2. 使用扩散模型作为图像解码器
3. 基于(标题,图像)数据集构建
4. 能够将不同图像的输入组合成连贯输出
5. 支持风格转换和角色一致性任务
MUMU的功能:
1. 生成图像时结合文本和图像提示
2. 进行风格转换,如将真实人物转换为卡通风格
3. 创建角色一致性的图像,如骑踏板车的主体
4. 从文本描述生成多种风格的图像
5. 在图像生成领域作为通用控制器
相关导航
暂无评论...