Zero-Shot Text-to-Image Generation 论文阅读笔记
摘要:
基于零样本(zero-shot)生成。使用两亿个文本-图像对训练。
公开源码(https://github.com/openai/DALL-E)不是很完善,缺了比如text encoder等关键部分。
这论文写得emmm不堪入目。
效果:
方法
训练阶段分两部分:
- 阶段一,压缩图片。训练一个discrete variational autoencoder (dVAE),即离散的变分自编码器来压缩256x256大小的RGB图片到32x32的image tokens,每个token有8192个可能值。(?)
- 将256个用BPE编码的text tokens和image tokens 连接在一起,然后训练一个自回归的transformer来建模text和image共同的分布。
整体思路是这样,细节看不太懂,之后再说。