TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation（阅读笔记）

2023-11-10 08:16:10

Abstract

TransUNet:Transformers为医学图像分割做强大编码器。医学图像分割领域U-Net架构取得突出成果但在远程依赖关系上有局限，而序列预测transformer由于low-level细节不足导致定位能力受限，本文提出transformer与U-Net结合，transformer将CNN特征图编码为上下文序列，解码器对编码的特征上采样，再与高分辨率特征图结合实现精准定位，结合transformer的U-Net，是医学图像分割的有效方案。

Introduction

CNN特别是全卷积神经在医学图像分割领域主导地位，在一些变体中，像UNet用跳过连接方式的网络增强了细节上特征的保留，成功应用在医学图像处理领域。但是在质地形状等特征上的保留仍有局限性，因此，基于CNN特征提出self-attention机制，完全免除卷积运算符，完全依靠注意力机制,此前广泛应用与NLP，最近应用在图像识别上也颇有成效。

本文提出TransUNet，Transformer采用self-attention机制将来自卷积神经网络（CNN）特征图的标记化图像块编码为提取全局上下文的输入序列。然后为了弥补Transformers特征解析（encoder)带来的损失，TransUNet采用混合CNN-Transformer架构，解码器对编码的特征上采样然后与从编码路径中跳过的不同高分辨率CNN特征图组合，以实现精确定位。实验结果表明基于transformer的比先前CNN的医学图像分割效果要好。

Method

给一个图x，长宽通道分别是w,h,c,目标是预测相应的逐像素标签图，h*w,一般操作就是CNN编码成高维特征图，再解码成完整的空间分辨率，而我们的方法使用transformer将self-attention机制加入编码阶段。

Transformer as Encoder

1.图像序列化

首先将输入x展成二维序列，大小p*p,则个数为n=h*w/(p*p)

Patch Embedding，用可训练的线性投影将矢量化切片 x.p映射到的D维空间中，如公式（1）：

E是切片嵌入投影，Epos是position embedding。transformer层包含L层Multihead Self-Attention（MSA）和Multi-Layer Perceptron (MLP)模块，下面LN是归一化运算

随后嵌入到transformer层

嵌入的结构示意图：

上述过程的策略通常不是最佳的，因为得到的H*W/(P*P)一般远小于图像分辨率H*W，因此采用混合CNN的transformer以及a cascaded upsampler策略，以能获得精准定位。

a cascaded upsampler（CUP）包含多个上采样层，提取特征生成特征图，用CUP解码输出隐藏特征，在隐藏层reshape to 之后，再联级多个上采样块实例化CUP（每个块都包含两个上采样运算，一个3*3卷积层，一个ReLU激活层）将整个分辨率H*W/(P*P) 的转化成H*W。其中上采样保留了skip-connection，使得能以不同的分辨率级别进行特征聚合。

Experiments and Discussion

Conclusion

本文为了完整的应用transformer，提出了TransUNet, 不仅通过将图像以序列处理编码全局特征，也通过使用U型结构将低层次CNN特征利用上，在医学图像分割上获得比大量其它方法（像基于CNN的自注意方法）更优的表现。

码农公寓

Abstract

Introduction

Method

Experiments and Discussion

Conclusion

相关文章