最近找了十几篇神经网络注意力机制的论文大概读了一下。这篇博客记录一下其中一篇,这篇论文大概只看了摘要,方法和参数初始化部分。文中提出RADC-Net(residual attention based dense connected convolutional neural network),网络中由三种结构组成,密集连接结构(dense connection structure)、残差注意力块(residual attention block)、增强分类层(enchanced classification layer)。密集连接结构能够提取明显的特征,残差注意力快可以增强局部语义信息,增强分类层可以进一步提取提炼被提取的卷积特征和局部语义信息。本文是做航拍图片的分类,因为航拍图是从天空的视角看的,因此更加的需要注重局部特征,在最后的增强分类层中也添加了卷积层来注重局部特征。本文中感觉最有意思的地方就是使用了密集连接结构。之前看过密集连接网络。但是却没有想到过用在这个上面过,密集连接结构更多的也是为了能够不让前面的特征消失。也是为了提取出来的特征所准备的。其中的残差注意力层,因为空间注意力会出现隔断CNN训练过程的问题,所以将之与残差网络进行结合形成残差注意力块。
dense connection structure
密集连接结构,图1展示了密集连接结构的组成成分,分别有合成函数(composite function)、dense block(密集块)、过渡层(transition layer)、分类层(classification layer)。一般的密集网络中密集块里面有十个合成函数。在整体的结构中一共含有三个密集连接结构,并且每个密集块中都只有三个合成函数,这样是为了减少参数并且还有提取特征的能力,因为密集块中每一层都是前面所有层的输出作为它的输入,因而密集块保住了低中层的特征。当然在此网络中只有dense block,没有过渡层和分类层,密集块中是三个1X1卷积和3X3卷积。
residual attention block
残差注意力结构,这里加入的残差可以解决空间注意力隔断CNN训练过程的问题,先用batch normalization来正则化输入的卷积特征,再使用1X1卷积将之变成一个通道,之后使用ReLu具有非线性的特征,之后将之与输入的数据点乘,最后使用softmax对之正则化。这里使用的就是一个1X1的卷积操作来融合了。ReLu虽然俩段是线性的,但是加起来就是非线性的。
enchanced classification layer
增强分类层,一般而言,CNN最后的分类层都是全连接和softmax层,但是这里为了更加突出局部特征,也是因为有的数据会有类内可能不同,类间可能相似的特点,最后还会增加额外的卷积层,整体结构可以用公式如下所示:
[
X_f = W_f^{1X1Xl}\otimes(W_A^{7X7Xh}\otimes(ReLu(W_1^{1X1Xh\otimesX^{7X7Xh} + b_1^{1X1Xh}))) + b_f^{1X1Xl}
]
这其中有很多参数,能够完全的描述高层特征,并且使用ReLU使之从线性转换成非线性。
总体结构
整体的网络结如下图所示:
个人感觉这篇文章在提取图片局部信息上下足了功夫,三种结构都是为了提取图片的局部信息的,并且还使用了密集连接结构来增强局部特征的作用,
注意力机制论文 --- RADC-Net: A residual attention based convolution network for aerial scene classification