Wide Residual Network(WRN)

Wide Residual Network(WRN)
  • 会议:British Machine Vision Conference 2016(BMVC 2016)
  • 作者:S.Zaforuyko; N.Komodakis
  • 贡献: 加宽ResNet

1 动机

1.1 加宽ResNet(WRN)

ResNet让网络能堆叠到上千层,但是:
  • 残差模块会减少特征重用
    • 梯度在网络中反向传播时,可能会略过残差模块,导致残差模块的参数训练时不更新
    • 最终只有小部分学到特征表示,大部分模块共享很小一部分信息(也就是减少特征重用)
  • 窄深网络不利于GPU并行运算

1.2 在残差中使用dropout

  • dropout之前被用于恒等连接部分
  • 现在放到卷积层之间

 

2 方法

Wide Residual Network(WRN)Wide Residual Network(WRN)

  • 正常残差模块如图(a)
  • 瓶颈层如图(b)是为了使网络变窄从而增加层数,本文想要加宽,所以不考虑

 

3 实验结果

3.1 卷积组合方式

Wide Residual Network(WRN)

  • 说明:
    • 不考虑瓶颈层,因此特征平面数量始终保持不变
    • B(3,1,3)表示3x3conv, 1x1conv, 3x3conv
  • 结论:
    • 参数量相当时,影响不大
    • 因此后面都采用3*3 conv
 

3.2 卷积层数(l), 参数量不变

Wide Residual Network(WRN)

  • 结论:
    • l=2时最优
    • 后面都采用B(3,3)
 

3.3 宽度(k)

Wide Residual Network(WRN)

  • 结论:
    • 宽度(k)增加,错误率降低
    • k固定,深度16到28错误率降低,从28到40错误率反而升高(WRN-40-8, WRN-22-8)

Wide Residual Network(WRN)

  • 结论:
    • WRN-40-4 与 ResNet-1001性能差不多
      • 表明深度并没有比宽度带来更多的正则化效果
      • 而且WRN-40-4 训练速度快8倍
    • 成功训练5倍参数量的WRN-28-12,性能超过ResNet-1001

3.4 dropout

Wide Residual Network(WRN)

  • 结论:
    • WRN-28-10, CIFAR-10 减少0.5%错误率
    • ResNet-50, CIFAR-10 减少1.65%

4 结论

  • 加宽提高性能
  • 深度,宽度都能提高性能,只要参数少,对正则化要求低
  • 相同参数量, 深度网络和宽度网络没有正则化效果区别;宽网络可以训练两倍参数量
  • ResNet力量来自于残差模块,而不是深度
上一篇:SQL Server 2008安装程序失败原因一


下一篇:RDP方法实现通过 linux远程桌面windows