WACV2021|RGPNET: A REAL-TIME GENERAL PURPOSE SEMANTIC SEGMENTATION
RGPNet:一种实时的通用语义分割
原文: https://arxiv.org/pdf/1912.01394.pdf
PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks
文章目录
摘要
本文提出了一种实时通用语义分割体系结构——RGPNet,该体系结构在复杂环境中获得了显著的性能提升。RGPNet由一个轻量级的非对称编译码器和一个适配器组成。适配器有助于保存和提炼来自编码器和解码器之间多层分布式表示的抽象概念。它也促进了从深层到浅层的梯度流动。实验表明,RGPNet可以实时生成分割结果,其精度与目前最先进的非实时重模型相当。此外,对于绿色人工智能,我们证明了使用一个优化的标记松弛技术与渐进式调整大小可以减少60%的训练时间,同时保持性能。我们得出结论,RGPNet在多个数据集上获得了更好的速度-精度权衡。
一、引入
常见的语义分割架构的示意图如上。
(a)在基于上下文的网络中,在级联或并行中使用具有多重膨胀率的膨胀卷积来捕获多尺度上下文。
(b)在编解码器网络中,编码器提取高级语义特征,解码器对编码器学习到的特征进行强化。
©在基于注意力的网络中,每个位置的特征通过所有位置特征的加权和选择性聚合。这可以通过通道或空间维度来实现。
(d)采用多分支网络将多个分辨率的语义分割结果结合起来。低分辨率分支以低分辨率产生更深层次的特征,高分辨率分支学习空间细节
二、本文主要贡献
(1)提出了RGPNet作为一种通用的实时语义分割体系结构,它可以获得高分辨率的深度特征,从而在单个分支网络中提高精度和降低延迟。它在复杂的环境中具有竞争力。
(2)引入一个适配器模块来捕获多个抽象级别,以帮助细分的边界细化,适配器还通过添加较短的路径来辅助渐变梯度流。
(3)对于green AI,在训练期间采用渐进式调整大小技术,从而使训练时间和环境影响减少60%,并且采用一种改进的标签松弛来消除低分辨率标签映射中的混叠效应。
(4)使用TensorRT(一个高性能深度学习推理平台)优化RGPNet,以便部署在边缘计算设备上,从而使推理速度提高400%。
(5)RGPNet在Cityscpes、CamVid和Mapillary数据集上分别实现了Resnet-101作为backbone 下80.9%、69.2%和50.2% mIoU以及Resnet-18作为backbone下74.1%、66.9%和41.7% mIoU。对于1024×2048分辨率的图像,RGPNet在CityScapes数据集上单NVIDIA GTX2080Ti GPU下达到37.4 FPS。
三.RGPNet结构
RGPNet的设计基于轻量级的非对称编译码结构,以实现快速高效的推理。它由三个部分组成:提取高级语义特征的编码器、轻量级非对称译码器和连接编解码器不同阶段的适配器(图中的+部分)。编码器降低了分辨率,增加了更深层次的特征映射的数量,因此它提取了更深层次的更抽象的特征,扩大了接受域。解码器重建丢失的空间信息。适配器合并来自编码器和解码器的信息,允许网络在多个级别之间保存和细化信息。图2描述了RGPNet体系结构。在图的某一行中,所有张量的空间分辨率与方案中提到的通道数相同。编码器的四个级别输出分别在256、512、1024和2048通道的不同空间分辨率下提取1/4、1/8、1/16和1/32。在每一级使用1×1卷积、批处理范数和ReLU激活函数,信道数量减少了四倍。这些输出然后通过一个中间有适配器的解码器结构。最后,通过1×1卷积从最大分辨率中提取分割输出,以匹配分割类别的通道数。
3.1组件
3.1.1 适配器(Adapter)
适配器有许多优点。首先,适配器从不同的上下文和空间层次聚合特征。其次,它通过引入一条较短的路径,使梯度从较深的层向较浅的层流动。第三,该适配器允许利用非对称设计和轻量级解码器。这导致更少的卷积层,进一步促进梯度流动。因此,该适配器在保留空间信息的同时提供了丰富的语义信息,使网络适合于实时应用。
3.1.2 带标签松弛的渐进式调整大小(Progressive Resizing with Label Relaxations)
渐进式调整大小是分类中常用的一种减少训练时间的技术。 训练从较小的图像尺寸开始,然后逐渐增大尺寸,直到使用原始图像尺寸进行训练的最后阶段为止。论文采取了最大化像素周围区域相似度分布,而不是单个像素级别的标签最大可能化,针对边界类别,提出了边界损失函数。
四、实验
多种网络在Mapillary Vistas数据集上的测试结果:
几种网络在Mapillary Vistas数据集上的性能对比:
在CamVid数据集上的性能对比:
RGPNet使用TensorRT在GTX2080Ti和Xavier上速度对比:
结论
本文提出了一种实时通用语义分割网络——RGPNet。它最大的贡献点就是包含了一个适配器模块,可以聚合了来自不同抽象级别的特性,并在编码器和解码器之间进行协调,从而产生更好的梯度流。
本文的概念简单但有效的模型实现了高效的推理,速度和准确性的资源限制设备在广泛的复杂领域。通过采用优化的渐进调整训练方案,将训练时间减少了一半以上,而性能却略有下降,从而大大减少了碳排放。此外,实验表明,RGPNet可以实时生成分割结果,其精度与最先进的非实时模型相当。这种速度和精度的最佳平衡使模型适用于实时应用,如自动驾驶。