我们介绍的 DeepFloyd IF 是一种新颖、先进的开源文本到图像模型,具有高度的逼真性和语言理解能力。DeepFloyd IF 是一个模块,由一个冻结文本编码器和三个级联像素扩散模块组成:一个基本模型,根据文本提示生成 64×64 px 的图像;两个超分辨率模型,分别用于生成分辨率不断提高的图像:256×256 px 和 1024×1024 px。该模型的所有阶段都使用基于 T5 变换器的冻结文本编码器来提取文本嵌入,然后将其输入到具有交叉注意力和注意力池增强功能的 UNet 架构中。结果是一个高效的模型,其性能超过了目前最先进的模型,在 COCO 数据集上获得了 6.66 分的零镜头 FID 分数。我们的工作强调了大型 UNet 架构在级联扩散模型第一阶段的潜力,并描绘了文本到图像合成的美好前景。

类似的工具
其他人也看的工具

万方检测
各领域的学术个体或学术机构提供学术成果相似性检测服务。

图刷刷 AnyPaint
易用的免费模型训练功能

Pixela.ai
Pixela.ai允许用户上传稳定扩散算法生成的图像与社区共享。该工具还允许用户找到随机纹理。

51建模网
3D模型一键AI渲染效果图,会打字就能用

coqui.ai
在几秒钟内克隆您的声音或从我们可用的 AI 声音中进行选择,每个版本都会添加更多.

塔猫ChatPPT
仅需一句话,智能生成整套PPT文件