图像分类相关资料整理 2

2024-03-23 20:40:40

四、ResNet

论文：《Deep Residual Learning for Image Recognition》

https://arxiv.org/pdf/1512.03385.pdf

ResNet在2015年由微软实验室提出，斩获当年ImageNet竞赛中分类任务第一名，目标检测第一名。获得COCO数据集中目标检测第一名，图像分割第一名。

网络中的亮点：

1) 超深的网络结构(突破1000层)

2) 提出residual模块

3) 使用Batch Normalization加速训练(丢弃dropout)

堆叠网络的缺点：

1.网络难以收敛，梯度消失/爆炸在一开始就阻碍网络的收敛。

传统解决办法：

通过标准初始化和中间标准化层在很大程度上解决。这使得数十层的网络能通过具有反向传播的随机梯度下降（SGD）开始收敛。

2.当更深的网络能够开始收敛时，暴露了一个退化问题：随着网络深度的增加，准确率达到饱和（这可能并不奇怪）然后迅速下降。意外的是，这种下降不是由过拟合引起的，并且在适当的深度模型上添加更多的层会导致更高的训练误差。

假设我们训练了一个浅层网络，那么在其后面直接添加多层恒等映射层而构成的一个深层网络，那这个深层网络最起码也不能比浅层网络差（或许是我们在合理的时间内实现不了吧）。所以我们可以得出这一个结论：不是所有的系统都很容易优化，即深层网络不容易被优化（不代表深层网络能做到更好的效果）

网络结构：

综述：

Kaiming He(2016)提出残差结构，减轻训练，从而能构建更深网络，实验表明残差网络更容易优化。在ImageNet测试集上达到了3.57%的误差，这一结果在ILSVRC 2015分类任务中获得了第一名。

五、ResNeXt

论文：《Aggregated Residual Transformations for Deep Neural Networks》

https://arxiv.org/abs/1611.05431

网络中的亮点：

更新了block，采用VGG、ResNet类似的堆叠方式，同时以一种简单，可扩展的方式实现了Inception中的split-transform-merge策略。

网络结构：

综述：

Saining Xie（2017）结合VGG、ResNet方法，采用堆叠和内部分支结构，构建ResNeXt架构。实验得出增加分支的数量比增加深度、宽度更高效，该网络在ILSVRC2016分类比赛中获第二名。

六、MobileNet、MobileNet v2、MobileNet v3

论文：《Efficient Convolutional Neural Networks for Mobile Vision Applications》

https://arxiv.org/abs/1704.04861

MobileNet网络是由google团队在2017年提出的，专注于移动端或嵌入式设备中的轻量级CNN网络。相比传统卷积神经网络，在准确率小幅降低的前提下大大减少模型参数与运算量。(相比VGG16准确率减少了0.9%，但模型参数只有VGG的1/32)。

网络中的亮点：

1) Depthwise Convolution，DW卷积(大大减少运算量和参数数量)。卷积核channel=1；输入特征矩阵channel=卷积核个数=输出特征矩阵channel

2) 增加超参数α、 β

网络结构：

综述：

Andrew G. Howard(2017)利用流线型架构和深度可分离卷积DW，提出了用于移动和嵌入式的MobileNet高效模型，MobileNet与VGG16有相似的精度，参数量和计算量减少了2个数量级，在参数量类似的情况下，精度高了3%。

论文：《MobileNetV2: Inverted Residuals and Linear Bottlenecks》

https://arxiv.org/abs/1704.04861

MobileNet v2网络是由google团队在2018年提出的，相比MobileNet V1网

络，准确率更高，模型更小。

网络中的亮点：

1) Inverted Residuals（倒残差结构）

2) Linear Bottlenecks

网络结构：

综述：

Mark Sandler(2018)利用反向残差结构和deep-wise的卷积方式，构建了一种新的移动端架构MobileNetV2，在计算量，存储空间和准确率方面取得了非常不错的平衡；与VGG16相比，在很小的精度损失情况下，将运算量减小了30倍，刷新了移动端模型的当前最佳性能。

论文：《Searching for MobileNetV3》

https://arxiv.org/pdf/1905.02244.pdf

MobileNet V3 = MobileNet v2 + SE结构 + hard-swish activation +网络结构头尾微调。提出了一种激活函数。

网络中的亮点：

1) 提出了一种新的适用于移动端的非线性激活方式 -h-swish

2) 使用NAS搜索参数（Neural Architecture Search）

3) 重新设计耗时层结构

网络结构：

综述：

Andrew Howard(2019)利用网络搜索策略NAS，确定网络结构，提出了非线性激活方式h-swish，构建了MobileNet V3网络，MobileNetV3-Large在ImageNet分类上比MobileNetV2准确3.2%，同时减少了15%的延迟。MobileNetV3-Small比MobileNetV2准确4.6%，同时减少了5%的延迟。MobileNetV3-Large检测速度快25%，与MobileNetV2在COCO检测上的准确性大致相同。mobilenetv3 -大型LR-ASPP比MobileNetV2 R-ASPP快30%。

码农公寓

四、ResNet

五、ResNeXt

六、MobileNet、MobileNet v2、MobileNet v3

相关文章