计算机视觉2 -AlexNet的原理
AlexNet的作用
推动了计算机视觉的发展
AlexNet的结构
卷积层+全连接层
卷积层:特征提取
全连接层:进行分类
卷积输出特征图
计算公式:
a
3
a_{3}
a3=
(
F
i
n
−
k
+
2
p
s
)
+
1
\left(\frac{F_{in}-k+2p}{s}\right)+1
(sFin−k+2p)+1
F
i
n
F_{in}
Fin:输入大小
k: kernel_size,卷积核大小
p:padding向下取整
s:stride(步长)
连接数量计算公式:
F
i
∗
(
K
s
∗
K
s
)
∗
K
n
+
K
n
F_{i}*(K_{s}*K_{s})*K_{n}+K_{n}
Fi∗(Ks∗Ks)∗Kn+Kn
F_{i}:前一层的通道数
K_{s}:卷积核尺寸
K_{n}:卷积核个数
卷积与池化的区别
卷积:通道数为卷积核的数目
池化:不改变通道数
AlexNet网络结构特点
使用ReLU加快神经网络的训练
1.ReLU的好处
1.防止梯度消失
2.使网络训练更快
3.使网络具有稀疏性
2.局部响应标准化(LRN)->不常用
局部响应标准化:有助于AlexNet泛化能力的提升受真实神经元侧抑制启发。提升精度
训练技巧(减轻过拟合)
1.Data Augmentation
1.裁剪获得多张图片最终的得到平均值
2.色彩扰动(PCA)对图像色彩进行轻微扰动,看结果(效果不明显,现在不常用)已经有对色彩进行扰动的函数!!!
2.Dropout(实用)
随机失活
随机:dropout probability(p=0.5)
失活:weight=0
注意事项:训练和测试两个阶段的数据尺度变化
测试时,神经元输出值需要乘以p
实验结果及分析
特征的相似性
相似图片的第二个全连接层输出的特征向量的欧式距离相近
启发:可用AlexNet提取高级特征进行图像检索,图像聚类,图像编码
论文总结
关键点:
1.大量带标签数据-ImageNet
2.高性能计算资源—GPU
3.合理算法模型—深度卷积神经网络
创新点:
1.采用ReLU加快大型神经网络的训练
2.采用LRN提升大型网络泛化能力
3.采用Overlapping Pooling提升指标
4.随机裁剪旋转及色彩扰动提升繁华能力
5.采用Dropout减小过拟合