BatchNorm原理及pytorch

## 背景 深度学习会使用大量的数据,不同batch之间数据的分布差异会比较大,这会使网络更难训练。这样我们将输入的数据归一化不就好了吗?可是网络在训练过程中,每一层输出的分布一直在变化,[^1] ## BatchNorm基本原理 [^]: (Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]//International conference on machine learning. PMLR, 2015: 448-456.)
上一篇:归一化层


下一篇:Rethinking “Batch” in BatchNorm - 1 - 论文学习