BN的本质:对于每个隐层神经元,把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的比较标准的正态分布,使得非线性变换函数的输入值落入对输入比较敏感的区域,以此避免梯度消失问题。
详情请参照:https://www.cnblogs.com/guoyaohua/p/8724433.html这位博主的文章详细介绍了Batch Norm的操作过程
在深度网络中BN相当于在z=wx+b和a = ξ(z)中间添加了一个z~= BN(z)的过程
BatchNorm在深度网络中的应用:
for t = 1, 2,...,n(n = mini-batch size)
compute forward prop on mini-batch X{t}
in each hidden layer,using BatchNorm to replace Z[l] with Z~[l]
use back prop to compute dw[l],db[l],dβ[l],dγ[l]
update parameters :w[l] := w - αdw[l]
β[l] := β - αdβ[l]
γ[l] := γ - αdγ[l] 注意参数更新的过程可以使用momentum、RMSprop、Adam代替