deeplabv3是一种语义分割网络,语义分割旨在对给定图片的每一个像素点进行类别预测,在这里我们来梳理一下deeplabv3网络的大致流程仅供参考,参考的算法实现地址为:https://github.com/fregu856/deeplabv3
1.网络流程图
2.网络原理
算法使用的数据集是分割常用的cityscapes,在对数据集进行适当的预处理后,输入网络的是batchx3x256x256的图片和batchx256x256的标签,标签的取值范围是0-19,代表一共有20类。
1.首先对图片进行特征提取,上图使用的是resnet18网络进行的特征提取,得到的是512x32x32的特征图;
2.aspp网络层对上一步得到的特征图从5个分支分别进行各自的卷积提取操作,得到的都是256x32x32的特征图,然后将它们拼接在一起,得到1280x32x32的特征图,再经过两次卷积得到20x32x32的特征图;
3.最后对20x32x32的特征图进行一次上采样操作,得到20x256x256的特征图,即最后我们需要的输出;
4.loss直接对20x256x256的特征图和256x256的标签在每一个像素点进行交叉熵损失计算,考虑到类别不平衡问题,网络还对每个类别的损失添加了相应的权重;