batch normalization:批处理。 用于隐藏层的在进行激活函数处理前的归一化处理。
https://www.jianshu.com/p/b38e14c1f14d
https://blog.csdn.net/xc_zhou/article/details/85710551
https://ruder.io/optimizing-gradient-descent/
写给妹子的深度学习--知乎
https://zhuanlan.zhihu.com/p/28333410