本文要解决的问题和GRAF基本一致,而且模型结构也非常相似,都是GAN结构,只不过整合了GAN领域的一些新结构,对效果做了提升。
具体结构就如上图a所示,输入相机位置和噪声(用于替换GRAF中的物体纹理和形状先验),预测对应点的颜色和密度,主要提升有三方面:
1. 激活函数
从上图a中可以很清楚的看到,每个线性层后接的不再是ReLu,而是一个FiLM SIREN,这个激活函数本质上就是把线性函数包含在sin里面,构造成一个可学习的sin函数。具体的结构就如图b所示。作者说这会让生成的图像更清晰,并且不再需要位置编码。
2. 语义映射网络
这个是模仿styleGAN的方式,是通过一个映射网络将随机变量转换为更符合对应语义的隐空间分布,从而简化了模型对语义信息的解析。
3. progressive判别器
借鉴了ProGAN里的判别器,通过从小分辨率输入开始,慢慢增加分辨率的方式做判别。需要说明的是生成器并没有用ProGAN