Wide Residual Network(WRN)
- 会议:British Machine Vision Conference 2016(BMVC 2016)
- 作者:S.Zaforuyko; N.Komodakis
- 贡献: 加宽ResNet
1 动机
1.1 加宽ResNet(WRN)
ResNet让网络能堆叠到上千层,但是:
- 残差模块会减少特征重用
- 梯度在网络中反向传播时,可能会略过残差模块,导致残差模块的参数训练时不更新
- 最终只有小部分学到特征表示,大部分模块共享很小一部分信息(也就是减少特征重用)
- 窄深网络不利于GPU并行运算
1.2 在残差中使用dropout
- dropout之前被用于恒等连接部分
- 现在放到卷积层之间
2 方法
- 正常残差模块如图(a)
- 瓶颈层如图(b)是为了使网络变窄从而增加层数,本文想要加宽,所以不考虑
3 实验结果
3.1 卷积组合方式
- 说明:
- 不考虑瓶颈层,因此特征平面数量始终保持不变
- B(3,1,3)表示3x3conv, 1x1conv, 3x3conv
- 结论:
- 参数量相当时,影响不大
- 因此后面都采用3*3 conv
3.2 卷积层数(l), 参数量不变
3.3 宽度(k)
- 结论:
- 宽度(k)增加,错误率降低
- k固定,深度16到28错误率降低,从28到40错误率反而升高(WRN-40-8, WRN-22-8)
- 结论:
- WRN-40-4 与 ResNet-1001性能差不多
- 表明深度并没有比宽度带来更多的正则化效果
- 而且WRN-40-4 训练速度快8倍
- 成功训练5倍参数量的WRN-28-12,性能超过ResNet-1001
3.4 dropout
- 结论:
- WRN-28-10, CIFAR-10 减少0.5%错误率
- ResNet-50, CIFAR-10 减少1.65%
4 结论
- 加宽提高性能
- 深度,宽度都能提高性能,只要参数少,对正则化要求低
- 相同参数量, 深度网络和宽度网络没有正则化效果区别;宽网络可以训练两倍参数量
- ResNet力量来自于残差模块,而不是深度