论文笔记4：Segmenter: Transformer for Semantic Segmentation

2023-12-19 12:45:09

1 引言

图像语义分割在单个图像块级别通常表现得比较模糊，文章提出了一种基于tansformer的语义分割模型，可以在网络传播过程中建模全局上下文信息。其网络结构是在ViT模型的基础上进行扩展，以适应语义分割任务。decoder部分使用linear decoder或mask transformer decoder，从输出的嵌入中获取类别信息。

在ADE20K上的表现超过之前的最佳网络模型。

2 模型

2.1 Encoder

encoder部分采用与ViT模型相同的结构，将图片转换为tokens，然后经transformer层处理之后输出。

2.2 Decoder

Mask Transformer：

引入可学习类别嵌入cls，它将会用来生成class mask。
将cls和output embedding送入decoder部分的transformer层处理。
将处理后的cls和output embedding做乘法，然后再经过一个softmax。
然后转换成2D特征，经过上采样恢复原输入图像尺寸。

3 总结

模型整体结构采用编解码架构，encoder部分设计来源于ViT模型，decoder部分的灵感来源于Max-DeepLab和SOLO-v2，通过transformer层扩大感受野，并通过mask transformer来进行类别划分，相较于point-wise linear decoder，网络性能明显提升。

码农公寓