论文笔记4:Segmenter: Transformer for Semantic Segmentation

论文地址:https://arxiv.org/abs/2105.05633

1 引言

图像语义分割在单个图像块级别通常表现得比较模糊,文章提出了一种基于tansformer的语义分割模型,可以在网络传播过程中建模全局上下文信息。其网络结构是在ViT模型的基础上进行扩展,以适应语义分割任务。decoder部分使用linear decoder或mask transformer decoder,从输出的嵌入中获取类别信息。

在ADE20K上的表现超过之前的最佳网络模型。

2 模型

论文笔记4:Segmenter: Transformer for Semantic Segmentation

2.1 Encoder

encoder部分采用与ViT模型相同的结构,将图片转换为tokens,然后经transformer层处理之后输出。

2.2 Decoder

Mask Transformer:

  1. 引入可学习类别嵌入cls,它将会用来生成class mask。
  2. 将cls和output embedding送入decoder部分的transformer层处理。
  3. 将处理后的cls和output embedding做乘法,然后再经过一个softmax。
  4. 然后转换成2D特征,经过上采样恢复原输入图像尺寸。

3 总结

模型整体结构采用编解码架构,encoder部分设计来源于ViT模型,decoder部分的灵感来源于Max-DeepLab和SOLO-v2,通过transformer层扩大感受野,并通过mask transformer来进行类别划分,相较于point-wise linear decoder,网络性能明显提升。

上一篇:Java反射机制


下一篇:《深度探索C++对象模型》学习笔记 — Data语义学(The Semantics of Data)