AI艺术的背后:详解文本生成图像模型
导语
AI 艺术生成已经开始走进大众的视野中。在过去一年里,出现了大量的文本生成图像模型,尤其是随着 Stable Diffusion 以及 Midjourney 的出现,带起了一股 AI 艺术创作热潮,甚至很多艺术家也开始尝试用 AI 来辅助艺术创作。在本文中,将会系统梳理近几年出现的文本生成图像算法,帮助大家深入了解其背后的原理。
为了探索复杂科学与人文艺术交叉领域,集智俱乐部正在主办“复杂科学与艺术”研讨会,汇聚各领域内的行动者与思想者——包括科学家、艺术家、学者及相关从业者,展开跨学科研讨,并合作产出。研讨会自2022年7月开始,每月一期,共十二期。AI生成式艺术也是研讨会主题之一。欢迎感兴趣的朋友报名加入。报名入口及详情见文末。

胡鹏博 | 作者
朱思嘉 | 排版
十三维 | 审校
目录
目录
-
基于 VQ-VAE
-
AE
-
VAE
-
VQ-VAE
-
DALL-E
-
基于 GAN
-
VQGAN
-
VQGAN-CLIP
-
DALL-E Mini
-
Parti
-
NUWA-Infinity
-
基于 Diffusion Model
-
Diffusion Model
-
GLIDE
-
DALL-E2
-
Imagen
-
Stable Diffusion
-
模型试玩
-
总结
基于VQ-VAE
基于VQ-VAE
AE
自编码器由编码器以及解码器组成(如下图所示)[1] ,其首先对图像进行压缩,之后,在对压缩后的表征进行重建。在实际应用中,自编码器往往会被用于降维,去噪,异常检测或者神经风格迁移中。



-
首先设置 K 个向量作为可查询的 Codebook。 -
输入图片通过编码器 CNN 来得到 N 个中间表征 ,然后通过最邻近算法,在 Codebook 中查询与这个 N 个中间表征最相似的向量。 -
将 Codebook 中查询的相似向量放到对应 的位置上,得到 。 -
解码器通过得到的中间表征 重建图片。


-
训练一个 dVAE(文章里面称为 dVAE,实际上是一个 VQ-VAE,这里不再赘述),其中,Codebook 的数量为 8192 -
训练一个自回归模型,这里文章中使用的是Transformer,通过输入文本,来预测中间表征
基于GAN
基于GAN
-
初始化一个生成器 和一个判别器 . -
固定生成器 的参数, 只更新判别器 的参数。具体过程为:选择一部分真实样本,以及从生成器 得到一些生成的样本,送入到判别器 中,判别器 需要判断哪些样本为真实的,哪些样本为生成的,通过与真实结果的误差来优化判别器 -
固定判别器 的参数, 只更新生成器 的参数。具体过程为:使用生成器 生成一部分样本, 将生成的样本喂入到判别器 中,判别器会对进行判断,优化生成器 的参数,使得判别器将其判断为更加偏向于真实样本。
















基于Diffusion Model
基于Diffusion Model
不同于 VQ-VAE,VQ-GAN,扩散模型是当今文本生成图像领域的核心方法,当前最知名也最受欢迎的文本生成图像模型 Stable Diffusion,Disco-Diffusion,Mid-Journey,DALL-E2 等等,均基于扩散模型。在这部分,会对扩散模型的原理以及基于扩散模型的算法进行详细的介绍。













-
CLIP模型,对齐图片文本表征 -
先验模型,接收文本信息,将其转换成 CLIP 图像表征 -
扩散模型,接受图像表征,来生成完整图像

-
训练一个 CLIP 模型,使其能够对齐文本和图片特征。 -
训练一个先验模型,由自回归模型或者一个扩散先验模型(实验证明,扩散先验模型表现更好),其功能是将文本表征映射为图片表征。 -
训练一个扩散解码模型,其目标是根据图片表征,还原原始图片。



其作用是将图像转换为低维表示形式,从而使得扩散过程是在这个低维表征中进行的,扩散完成之后,在通过VAE 解码器,将其解码成图片。
U-Net 是扩散模型的主干网络,其作用是对噪音进行预测,从而实现反向去噪过程
主要负责将文本转换为U-Net可以理解的表征形式,从而引导U-Net进行扩散。

模型试玩
模型试玩
https://nightcafe.studio/
https://huggingface.co/spaces/dalle-mini/dalle-mini
https://github.com/openai/dall-e (需要等 Waitlist)
https://beta.dreamstudio.ai/dream
https://colab.research.google.com/github/alembics/disco-diffusion/blob/main/Disco_Diffusion.ipynb
https://www.midjourney.com/home/
https://nuwa-infinity.microsoft.com/#/ (暂未开放,可以保持关注)
总结
总结
►►►
复杂科学×艺术系列研讨会公开报名中

研讨会详情与框架:
推荐阅读
-
计算美学百篇论文大综述:如何从复杂性科学视角进行审美 -
计算美学前沿速递:用信息论“重新发现”风景画艺术史 -
物理学和生物学中的真与美 -
《张江·复杂科学前沿27讲》完整上线! -
成为集智VIP,解锁全站课程/读书会 -
加入集智,一起复杂!