Google Imagen 3 是由谷歌研究团队开发的文本到图像扩散模型,结合了高保真度和深层语言理解,能够从文本描述生成惊人真实的图像。
Imagen是一个文本到图像的扩散模型,具有极高的真实感,利用大型变换器语言模型来理解文本并生成高保真图像。它在COCO数据集上取得了7.27的最先进FID分数,并在样本质量和图像-文本对齐方面被人类评审者优先选择。