批处理归一化(BN)已经成为许多先进深度学习模型的重要组成部分,特别是在计算机视觉领域。它通过批处理中计算的平均值和方差来规范化层输入,因此得名。要使BN工作,批大小必须足够大,通常至少为32。但是,在一些情况下,我们不得不满足于小批量:
当每个数据样本高度消耗内存时,例如视频或高分辨率图像
当我们训练一个很大的神经网络时,它只留下很少的GPU内存来处理数据
因此,我们需要BN的替代品,它能在小批量下很好地工作。组归一化(GN)是一种最新的规范化方法,可以避免利用批处理维,因此与批处理大小无关。
不同的归一化方法
为了促进GN的表述,我们将首先看一下以前的一些标准化方法。
xᵢ ← (xᵢ -