DeepLab-v2(79.7 mIOU)
参考文章:https://blog.csdn.net/qq_14845119/article/details/102942576(图像分割之 deeplab v1,v2,v3,v3+系列解读)
论文地址:https://arxiv.org/abs/1606.00915(DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs)
DeepLab-v2相比v1版本的不同点有两个:①baseline用更先进的ResNet来代替v1版本的Vgg16;②在muti-scale机制方面,使用ASPP
一、模型结构
将DCNNs应用于语义分割有三个挑战:
1、由于堆叠下采样层和池化层所造成的输出特征图的分辨率太低的问题
2、多尺度目标
3、以对象目标为中心的分类器需要的空间变换不变性,本质上限制了DCNN的空间精度
对应上面三个挑战,DeepLab-v2三个主要部分分别对应解决三个挑战:
1、全卷积+空洞卷积
2、ASPP
3、全连接CRF
(其中1、3部分与v1版本相同,下面不再赘述,详见v1笔记)
(一)全卷积+空洞卷积(跟v1版本的一样的)
作者将ResNet101修改为全卷积的形式(将原来的全连接层都去掉)应用到本文模型,并用空洞卷积的方式修改其中的卷积层,来降低传统卷积池化层所造成分辨率过低。最终输出scores map。通过设置空洞卷积的rate,可以随意控制输出的特征的分辨率,高分辨率可以使得最后的分割图更准确,但是会增加计算量使得效率降低。作者通过一系列实验,达到了good efficiency/accuracy trade-off,即使用空洞卷积使得输出的scores map(插值之前的)是原图尺寸的1/8。
(二)ASPP(Atrous Spatial Pyramid Pooling)
ASPP是作者结合空洞卷积和SPP,提出的一个处理多尺度目标的方法。ASPP的多尺度处理办法有别于v1中多个MLP的办法,是相对于v1的一个改进。
ASPP就是使用多个平行的空洞卷积分支(具有不同的rate),分别进行卷积,这样得到的特征就具有不同大小的感受野,最终再将它们合并。
图像分割就是对每个像素进行分类,如上图中,为了对中心的橙色像素点进行分类,我们需要它周围的像素的信息帮助判断,作者采取不同rate的空洞卷积,来获取不同范围的周围的特征。
(三)全连接CRF(跟v1一样)
还是处在不懂状态...
二、实验结果
损失函数是插值之前的scores map的每一个像素点的交叉熵损失的和。
(一)DeepLab-LargeFOV
仅是对fc6层的空洞卷积使用3×3卷积核+rate12。
(二)DeepLab-LargeFOV with ASP
采用ASPP-L后,通过CRF的处理可以达到71.57的Mean IOU。下图是可视化效果:
(三)ResNet with MSC COCO Aug ASPP CRF...
(四)论文效果最好的模型与其他一些模型的对比数据
最后一行,作者的模型mIOU可以达到79.7。