注意力机制论文 --- RADC-Net: A residual attention based convolution network for aerial scene classification

最近找了十几篇神经网络注意力机制的论文大概读了一下。这篇博客记录一下其中一篇,这篇论文大概只看了摘要,方法和参数初始化部分。文中提出RADC-Net(residual attention based dense connected convolutional neural network),网络中由三种结构组成,密集连接结构(dense connection structure)、残差注意力块(residual attention block)、增强分类层(enchanced classification layer)。密集连接结构能够提取明显的特征,残差注意力快可以增强局部语义信息,增强分类层可以进一步提取提炼被提取的卷积特征和局部语义信息。本文是做航拍图片的分类,因为航拍图是从天空的视角看的,因此更加的需要注重局部特征,在最后的增强分类层中也添加了卷积层来注重局部特征。本文中感觉最有意思的地方就是使用了密集连接结构。之前看过密集连接网络。但是却没有想到过用在这个上面过,密集连接结构更多的也是为了能够不让前面的特征消失。也是为了提取出来的特征所准备的。其中的残差注意力层,因为空间注意力会出现隔断CNN训练过程的问题,所以将之与残差网络进行结合形成残差注意力块。

dense connection structure

密集连接结构,图1展示了密集连接结构的组成成分,分别有合成函数(composite function)、dense block(密集块)、过渡层(transition layer)、分类层(classification layer)。一般的密集网络中密集块里面有十个合成函数。在整体的结构中一共含有三个密集连接结构,并且每个密集块中都只有三个合成函数,这样是为了减少参数并且还有提取特征的能力,因为密集块中每一层都是前面所有层的输出作为它的输入,因而密集块保住了低中层的特征。当然在此网络中只有dense block,没有过渡层和分类层,密集块中是三个1X1卷积和3X3卷积。

![dense](https://img2020.cnblogs.com/blog/962084/202007/962084-20200704201554276-1496215308.png "dense")
图1. 密集连接结构

residual attention block

残差注意力结构,这里加入的残差可以解决空间注意力隔断CNN训练过程的问题,先用batch normalization来正则化输入的卷积特征,再使用1X1卷积将之变成一个通道,之后使用ReLu具有非线性的特征,之后将之与输入的数据点乘,最后使用softmax对之正则化。这里使用的就是一个1X1的卷积操作来融合了。ReLu虽然俩段是线性的,但是加起来就是非线性的。

![attention](https://img2020.cnblogs.com/blog/962084/202007/962084-20200704201638655-998259983.png "attention")
图2. 残差注意力块
在残差注意力块之后,都是使用下采样,也就是池化,以此让训练过程持续进行下去。

enchanced classification layer

增强分类层,一般而言,CNN最后的分类层都是全连接和softmax层,但是这里为了更加突出局部特征,也是因为有的数据会有类内可能不同,类间可能相似的特点,最后还会增加额外的卷积层,整体结构可以用公式如下所示:
[
X_f = W_f^{1X1Xl}\otimes(W_A^{7X7Xh}\otimes(ReLu(W_1^{1X1Xh\otimesX^{7X7Xh} + b_1^{1X1Xh}))) + b_f^{1X1Xl}
]
这其中有很多参数,能够完全的描述高层特征,并且使用ReLU使之从线性转换成非线性。

![classification](https://img2020.cnblogs.com/blog/962084/202007/962084-20200704201808376-627143916.png "classification")
图3. 增强分类层

总体结构

整体的网络结如下图所示:

![network](https://img2020.cnblogs.com/blog/962084/202007/962084-20200704201855107-908237988.png "network")
图4. 总体结构
具体的可用表格信息表示出来:
![table](https://img2020.cnblogs.com/blog/962084/202007/962084-20200704201958959-1140652115.png "table")

个人感觉这篇文章在提取图片局部信息上下足了功夫,三种结构都是为了提取图片的局部信息的,并且还使用了密集连接结构来增强局部特征的作用,

注意力机制论文 --- RADC-Net: A residual attention based convolution network for aerial scene classification

上一篇:学习js前先了解--js(一)


下一篇:css圣杯布局的实现方式