Going deeper with convolutions
更深的卷积网络
简介
Inception v1-GoogLeNet(论文阅读总结) - 知乎 (zhihu.com)
- 开启多尺度卷积时代
- 拉开1*1卷积广泛应用序幕
- 为GoogLeNet系列开辟道路
GoogLeNet结构
Inception Module
特点:
- 1.多尺度
- 2.1*1卷积降维,信息融合
- 3.3*3 max pooling保留了特征图数量
-
3*3 pool可让特征图通道数增加,且用较少计算量
缺点:
数据量激增 计算量大 -
解决方法:引入1*1卷积压缩厚度
- 3 * 3 * 256 * 192 = 442,368 -> 1 * 1 *256 * 64 + 3 * 3 * 64 * 192 = 16,384 + 110,592
-
三阶段:conv-pool-conv-pool 快速降低分辨率 输入224 * 224 * 3 经过卷积、池化、卷积、卷积、池化后下降到 28 * 28;:堆叠I nception; FC层分类输出
-
堆叠使用Inception Module,达22层
-
增加两个辅助损失,缓解梯度消失(中间层特征具有分类能力)
- 总体上可以分为五个模块
训炼技巧
辅助分类层
- 增加loss回传
- 充当正则约束,迫使中间层特征也能具备分类能力
-
- 平均池化层:大小5×5,步幅 3,(4a)为4×4×512输出,(4d)为4×4×528输出
- 1×1卷积层+ReLU:128个卷积核,降维
- 全连接层+ReLU:1024维
- dropout:70%
- A linear layer with softmax loss:预测1000类
LR下降策略
论文中没有提到具体采用了多少个epoch
每8个epoch下降4%: fixed learning rate schedule (decreasina the learning rate biy A k cvery epochs)
0.96^100 =0.016 , 800个epochs,才下降不到100倍
数据增强
- 图像尺寸均匀分布在8%-100%之间
- 长宽比在[3/4,4/3]之间
- Photometric distortions(光度畸变),如亮度、饱和度和对比度等,有效减轻过拟合
测试技巧
Multi crop
1 * 4 * 3 * 6 * 2 = 144
-
等比例缩放短边至256,288,320,352,四种尺寸。
-
在长边上裁剪出3个正方形,左中右或者上中下,三个位置。
-
左上、右上,左下,右下,中心,全局resize,六个位置。
-
水平镜像。
模型融合
七个模型训练差异仅在图像采样方式和顺序的差异
实验结果及分析
- 分类结果
- 目标检测结果
稀疏结构
稀疏矩阵
-
稀疏矩阵:数值为0的元素数目远远多于非0元素的数目,且无规律
-
稠密矩阵:数值非0的元素数目远远多于为0元素的数目,且无规律
-
稀疏矩阵优点是,可分解成密集矩阵计算来加快收敛速度
特征图通道的分解
总结
关键点、创新点
- 大量使用1*1卷积,可降低维度,减少计算量,总参数是AlexNet的十二分之一
- 多尺度卷积核,实现多尺度特征提取
- 辅助损失层,增加梯度回传,相当于增加正则项,减轻过拟合