四、ResNet
论文:《Deep Residual Learning for Image Recognition》
https://arxiv.org/pdf/1512.03385.pdf
ResNet在2015年由微软实验室提出,斩获当年ImageNet竞赛中分类任务第一名,目标检测第一名。获得COCO数据集中目标检测第一名,图像分割第一名。
网络中的亮点:
1) 超深的网络结构(突破1000层)
2) 提出residual模块
3) 使用Batch Normalization加速训练(丢弃dropout)
堆叠网络的缺点:
1.网络难以收敛,梯度消失/爆炸在一开始就阻碍网络的收敛。
传统解决办法:
通过标准初始化和中间标准化层在很大程度上解决。这使得数十层的网络能通过具有反向传播的随机梯度下降(SGD)开始收敛。
2.当更深的网络能够开始收敛时,暴露了一个退化问题:随着网络深度的增加,准确率达到饱和(这可能并不奇怪)然后迅速下降。意外的是,这种下降不是由过拟合引起的,并且在适当的深度模型上添加更多的层会导致更高的训练误差。
假设我们训练了一个浅层网络,那么在其后面直接添加多层恒等映射层而构成的一个深层网络,那这个深层网络最起码也不能比浅层网络差(或许是我们在合理的时间内实现不了吧)。所以我们可以得出这一个结论:不是所有的系统都很容易优化,即深层网络不容易被优化(不代表深层网络能做到更好的效果)
网络结构:
综述:
Kaiming He(2016)提出残差结构,减轻训练,从而能构建更深网络,实验表明残差网络更容易优化。在ImageNet测试集上达到了3.57%的误差,这一结果在ILSVRC 2015分类任务中获得了第一名。
五、ResNeXt
论文:《Aggregated Residual Transformations for Deep Neural Networks》
https://arxiv.org/abs/1611.05431
网络中的亮点:
更新了block,采用VGG、ResNet类似的堆叠方式,同时以一种简单,可扩展的方式实现了Inception中的split-transform-merge策略。
网络结构:
综述:
Saining Xie(2017)结合VGG、ResNet方法,采用堆叠和内部分支结构,构建ResNeXt架构。实验得出增加分支的数量比增加深度、宽度更高效,该网络在ILSVRC2016分类比赛中获第二名。
六、MobileNet、MobileNet v2、MobileNet v3
论文:《Efficient Convolutional Neural Networks for Mobile Vision Applications》
https://arxiv.org/abs/1704.04861
MobileNet网络是由google团队在2017年提出的,专注于移动端或嵌入式设备中的轻量级CNN网络。相比传统卷积神经网络,在准确率小幅降低的前提下大大减少模型参数与运算量。(相比VGG16准确率减少了0.9%,但模型参数只有VGG的1/32)。
网络中的亮点:
1) Depthwise Convolution,DW卷积(大大减少运算量和参数数量)。卷积核channel=1;输入特征矩阵channel=卷积核个数=输出特征矩阵channel
2) 增加超参数α、 β
网络结构:
综述:
Andrew G. Howard(2017)利用流线型架构和深度可分离卷积DW,提出了用于移动和嵌入式的MobileNet高效模型,MobileNet与VGG16有相似的精度,参数量和计算量减少了2个数量级,在参数量类似的情况下,精度高了3%。
论文:《MobileNetV2: Inverted Residuals and Linear Bottlenecks》
https://arxiv.org/abs/1704.04861
MobileNet v2网络是由google团队在2018年提出的,相比MobileNet V1网
络,准确率更高,模型更小。
网络中的亮点:
1) Inverted Residuals(倒残差结构)
2) Linear Bottlenecks
网络结构:
综述:
Mark Sandler(2018)利用反向残差结构和deep-wise的卷积方式,构建了一种新的移动端架构MobileNetV2,在计算量,存储空间和准确率方面取得了非常不错的平衡;与VGG16相比,在很小的精度损失情况下,将运算量减小了30倍,刷新了移动端模型的当前最佳性能。
论文:《Searching for MobileNetV3》
https://arxiv.org/pdf/1905.02244.pdf
MobileNet V3 = MobileNet v2 + SE结构 + hard-swish activation +网络结构头尾微调。提出了一种激活函数。
网络中的亮点:
1) 提出了一种新的适用于移动端的非线性激活方式 -h-swish
2) 使用NAS搜索参数(Neural Architecture Search)
3) 重新设计耗时层结构
网络结构:
综述:
Andrew Howard(2019)利用网络搜索策略NAS,确定网络结构,提出了非线性激活方式h-swish,构建了MobileNet V3网络,MobileNetV3-Large在ImageNet分类上比MobileNetV2准确3.2%,同时减少了15%的延迟。MobileNetV3-Small比MobileNetV2准确4.6%,同时减少了5%的延迟。MobileNetV3-Large检测速度快25%,与MobileNetV2在COCO检测上的准确性大致相同。mobilenetv3 -大型LR-ASPP比MobileNetV2 R-ASPP快30%。