Batch normalization
将error surface的山铲平
change landscape
通过改变w,改变y,进而改变e,而对于不同量级的x,会产生不同的Δ,所以进行归一化:
feature normalization之后,样本之间的关系由独立变成彼此关联。样本数取决于batch
testing = inference
μ σ 通过batch算出,
test时pytorch会保留训练时的μ和sigma
这样测试时不必取到所有batch才能预测
internal covariate shift?
实验表明 不是特别大的问题,且batch norm会让 error surface 更平坦
其他方案
还有代替的发现
serendipitous