本文讨论的内容参考自《神经网络与深度学习》https://nndl.github.io/ 第5章 卷积神经网络
卷积神经网络
卷积
卷积的定义
一维卷积
二维卷积
互相关
卷积的变种
卷积的数学性质
交换性
导数
卷积神经网络
用卷积来代替全连接
卷积层
汇聚层
卷积网络的整体结构
参数学习
卷积神经网络的反向传播算法
几种典型的卷积神经网络
LeNet-5
这里解释一下(2),平均汇聚是相加然后乘以一个可训练参数,再加上一个可训练偏置,因此可训练参数的数量是
6
∗
(
1
+
1
)
6 * (1 + 1)
6∗(1+1),而连接数是
6
∗
14
∗
14
∗
(
2
∗
2
+
1
)
6 * 14 * 14 * (2 * 2 + 1)
6∗14∗14∗(2∗2+1),这里包括了偏置在内。
(3)C3这里使用了60个卷积核,为什么只得到了16个特征图,而不是60个特征图,这是LeNet-5的特殊的连接,连接表如下:
(5)C5卷积层是使用了120*16个二维的 5 X 5 5X5 5X5的卷积核,实际上就是120个三维的 5 X 5 X 16 5X5X16 5X5X16的卷积核。
实际上,上面的卷积核都是二维的,所以算起来不太一样,卷积层输出的特征图数目等于卷积核数目,不论上一层的特征图有多少,卷积核都可以进行卷积,最终只输出一个特征图(见下图),因为卷积核的通道数和输入特征图的通道数相同,每个通道都和卷积核对应通道的部分卷积,最后再相加,变成一个特征图。
AlexNet
Inception网络
残差网络
其他卷积方式
转置卷积
空洞卷积
总结和深入阅读
习题
这里再解释一下窄卷积和宽卷积,以1维举例
比如说我有7个元素,卷积核长度是5,那么窄卷积出来的元素个数就是(7-5+1)= 3,而为了把边缘特征也提取出来,就需要进行0填充,在7个元素的左右各填充(5-1)=4个0,总共就有15个元素,那么宽卷积出来的元素个数就是(15-5+1)=11。接下来来证明宽卷积的可交换性:
首先给定一个二维图像
X
∈
R
M
X
N
X \in R^{MXN}
X∈RMXN和一个二维卷积核
W
∈
R
U
X
V
W \in R^{UXV}
W∈RUXV,由于要使用宽卷积,所以对图像进行填充,两端各补
U
−
1
U-1
U−1和
V
−
1
V-1
V−1个零,得到全填充图像
X
∈
R
(
M
+
2
U
−
2
)
X
(
N
+
2
V
−
2
)
X \in R^{(M+2U-2)X(N+2V-2)}
X∈R(M+2U−2)X(N+2V−2)
结果是一样的,所以是可交换的。
1X1的卷积核可以用来升降维,因为卷积后的特征图通道数和卷积核个数是相同的,那么通过给定个数的1X1卷积核就可以实现升降维。
1X1卷积核的升维和降维就是通道之间的线性组合,实现跨通道的信息交互,比如说3X3,64channel的卷积核后面再加一个1X1,28channel的卷积核,就会变成3X3,28channel的卷积核,原来的64个channel可以理解为跨通道线性组合变成了28个channels。
1X1卷积核增加了网络深度,因为添加了一层卷积层,卷积过程会包含一个激活函数,所以在特征图从尺寸不改变的情况下,增加了网络深度,增加了非线性,所以会增加整个网络的表达能力。
(1)通道数为256到256,相当于使用了256个3X3的卷积核,所以时间复杂度是
100
∗
100
∗
256
∗
3
∗
3
∗
256
=
5898240000
100*100*256*3*3*256=5898240000
100∗100∗256∗3∗3∗256=5898240000
空间复杂度是
256
∗
100
∗
100
=
2560000
256*100*100=2560000
256∗100∗100=2560000
(2)通道数先从256到64再到256
时间复杂度是
100
∗
100
∗
256
∗
1
∗
1
∗
64
+
100
∗
100
∗
64
∗
3
∗
3
∗
256
=
1638400000
100*100*256*1*1*64+100*100*64*3*3*256=1638400000
100∗100∗256∗1∗1∗64+100∗100∗64∗3∗3∗256=1638400000
空间复杂度是
64
∗
100
∗
100
+
256
∗
100
∗
100
=
3200000
64*100*100+256*100*100=3200000
64∗100∗100+256∗100∗100=3200000
可以看到1X1的卷积核虽然多了些空间复杂度,但能大幅减少时间复杂度。
以习题5-5的例子来说,
比如前向计算的时候,第
l
+
1
l+1
l+1层的净输入为
z
(
l
+
1
)
=
W
(
l
+
1
)
z
(
l
)
z^{(l+1)}=W^{(l+1)}z^{(l)}
z(l+1)=W(l+1)z(l),那么反向传播时,第
l
l
l层的误差项为
δ
(
l
)
=
(
W
(
l
+
1
)
)
T
δ
(
l
+
1
)
\delta^{(l)}=(W^{(l+1)})^T \delta^{(l+1)}
δ(l)=(W(l+1))Tδ(l+1),是一种转置关系。