3_GoogLeNetV1

Going deeper with convolutions

更深的卷积网络

简介

Inception v1-GoogLeNet(论文阅读总结) - 知乎 (zhihu.com)

3_GoogLeNetV1

3_GoogLeNetV1

3_GoogLeNetV1

  • 开启多尺度卷积时代
  • 拉开1*1卷积广泛应用序幕
  • 为GoogLeNet系列开辟道路

3_GoogLeNetV1

3_GoogLeNetV1

GoogLeNet结构

Inception Module

3_GoogLeNetV1

特点:

  • 1.多尺度
  • 2.1*1卷积降维,信息融合
  • 3.3*3 max pooling保留了特征图数量

3_GoogLeNetV1

  • 3*3 pool可让特征图通道数增加,且用较少计算量
    缺点:
    数据量激增 计算量大

  • 解决方法:引入1*1卷积压缩厚度

3_GoogLeNetV1

3_GoogLeNetV1

  • 3 * 3 * 256 * 192 = 442,368‬ -> 1 * 1 *256 * 64 + 3 * 3 * 64 * 192 = 16,384 + 110,592‬

3_GoogLeNetV1

  • 三阶段:conv-pool-conv-pool 快速降低分辨率 输入224 * 224 * 3 经过卷积、池化、卷积、卷积、池化后下降到 28 * 28;:堆叠I nception; FC层分类输出

  • 堆叠使用Inception Module,达22层

  • 增加两个辅助损失,缓解梯度消失(中间层特征具有分类能力)

3_GoogLeNetV1

  • 总体上可以分为五个模块

训炼技巧

辅助分类层

  • 增加loss回传
  • 充当正则约束,迫使中间层特征也能具备分类能力

3_GoogLeNetV1

    • 平均池化层:大小5×5,步幅 3,(4a)为4×4×512输出,(4d)为4×4×528输出
    • 1×1卷积层+ReLU:128个卷积核,降维
    • 全连接层+ReLU:1024维
    • dropout:70%
    • A linear layer with softmax loss:预测1000类

LR下降策略

论文中没有提到具体采用了多少个epoch

每8个epoch下降4%: fixed learning rate schedule (decreasina the learning rate biy A k cvery epochs)

0.96^100 =0.016 , 800个epochs,才下降不到100倍

数据增强

  • 图像尺寸均匀分布在8%-100%之间
  • 长宽比在[3/4,4/3]之间
  • Photometric distortions(光度畸变),如亮度、饱和度和对比度等,有效减轻过拟合

测试技巧

Multi crop

1 * 4 * 3 * 6 * 2 = 144

  • 等比例缩放短边至256,288,320,352,四种尺寸。

  • 在长边上裁剪出3个正方形,左中右或者上中下,三个位置。

  • 左上、右上,左下,右下,中心,全局resize,六个位置。

  • 水平镜像。

模型融合

七个模型训练差异仅在图像采样方式和顺序的差异

3_GoogLeNetV1

实验结果及分析

  • 分类结果

3_GoogLeNetV1

3_GoogLeNetV1

  • 目标检测结果

3_GoogLeNetV1

稀疏结构

稀疏矩阵

  • 稀疏矩阵:数值为0的元素数目远远多于非0元素的数目,且无规律

  • 稠密矩阵:数值非0的元素数目远远多于为0元素的数目,且无规律

  • 稀疏矩阵优点是,可分解成密集矩阵计算来加快收敛速度

3_GoogLeNetV1

特征图通道的分解

3_GoogLeNetV1

总结

关键点、创新点

  • 大量使用1*1卷积,可降低维度,减少计算量,总参数是AlexNet的十二分之一
  • 多尺度卷积核,实现多尺度特征提取
  • 辅助损失层,增加梯度回传,相当于增加正则项,减轻过拟合
上一篇:Pytorch之经典神经网络(五) —— NIN


下一篇:LeetCode 922 按奇偶排序数组II