传统的GAN网络虽然效果不错,但运算量大得难以忍受。本文提出了一种在线多粒度蒸馏方法(online multi-granularity distillation),能够相较于pix2pix和styleGAN能够大幅减少参数量和运算量。
学生模型学习两个教师模型传递而来的知识,一个更宽,即通道数更多,另一个根深,通过添加残差块实现。学生模型不仅通过KD Loss学习两个教师模型最后的输出,还学习了更宽的教师网络的每一层的知识。
因为学生的输出损失是根据自身和教师的输出决定的,因此这一切可以在没有GT个判别器的情况下进行。
方法中的“在线”,指的是网络不是预训练后固定的网络,而是要在指导学生的同时,也要根据与GT的差异更新自身参数。
这种方法有三种好处:
- 隔绝了学生与GT和判别器的联系,让训练更加灵活且可以进一步压缩;
- 预训练好的网络无法指导学生网络每一步的学习,只能传递最后一层的知识
- 在传统的离线蒸馏方法中,因为评价指标的主观性,难以选择一个合适的预训练网络