论文地址:https://arxiv.org/abs/2105.05633
1 引言
图像语义分割在单个图像块级别通常表现得比较模糊,文章提出了一种基于tansformer的语义分割模型,可以在网络传播过程中建模全局上下文信息。其网络结构是在ViT模型的基础上进行扩展,以适应语义分割任务。decoder部分使用linear decoder或mask transformer decoder,从输出的嵌入中获取类别信息。
在ADE20K上的表现超过之前的最佳网络模型。
2 模型
2.1 Encoder
encoder部分采用与ViT模型相同的结构,将图片转换为tokens,然后经transformer层处理之后输出。
2.2 Decoder
Mask Transformer:
- 引入可学习类别嵌入cls,它将会用来生成class mask。
- 将cls和output embedding送入decoder部分的transformer层处理。
- 将处理后的cls和output embedding做乘法,然后再经过一个softmax。
- 然后转换成2D特征,经过上采样恢复原输入图像尺寸。
3 总结
模型整体结构采用编解码架构,encoder部分设计来源于ViT模型,decoder部分的灵感来源于Max-DeepLab和SOLO-v2,通过transformer层扩大感受野,并通过mask transformer来进行类别划分,相较于point-wise linear decoder,网络性能明显提升。