一、特点
1、对AlexNet改进,在第一个卷积层用了更小的卷积核和stride
2、多尺度训练(训练和测试时,采用整张图的不同尺度)
由此,VGG结构简单,提取特征能力强,应用场景广泛
由单尺度测试结果对比:
二、 不同结构的对比
VGG一共提供了6个网络版本,一次探究不同网络的效果对比。
下面简要分析一下各个版本的网络配置细节:
结构 A:与 AlexNet 类似,卷积层分为5个stage,3个全连接层,不同的是,卷积层用的都是3x3大小的卷积核;
结构 A-LRN:保留 AlexNet 中的 LRN 操作,其他结构与A相同;
结构 B:在 A 的 stage2 和 stage3 分别增加一个3x3的卷积层,共有10个卷积层了;
结构C:在 B 的基础上,stage3,stage4,stage5 分别增加一个1x1的卷积层,有13个卷积层,总计16层;
结构D:在 C 的基础上,stage3,stage4,stage5 分别增加一个3x3的卷积层,有13个卷积层,总计16层;
结构E:在 D 的基础上,stage3,stage4,stage5 分别再增加一个3x3的卷积层,有16个卷积层,总计19层。
各结构效果对比:
A 与 A-LRN 比较:A-LRN 结果没有 A 好,说明 LRN 作用不大;
A 与 B, C, D, E 比较:A 是这当中层数最少的,相比之下 A 效果不如 B,C,D,E,说明层数越深越好;
B 与 C 比较:增加 1x1 卷积核,增加了额外的非线性提升效果;
C与D比较:3x3 的卷积核(结构D)比 1x1(结构C)的效果好。(注意!!!!)
C、D、E之间的比较,多尺度会提高准确率
三、对卷积核优点的讨论
1、为什么使用3×3的卷积核?
(1)3个3×3的卷积核的感受野与一个7×7的卷积核的感受野等效,但是中间加入了激活函数,与一个7×7的卷积核相比,深度更深且增加了非线性
(2)参数量减少:
(C×3×3×C)×3 = 27C^2
C×7×7×C = 49C^2
2、1×1卷积核的作用(用其他的卷积核虽然也能实现这两个功能,但是参数量大)
(1)增加非线性
(2)升维和降维
四、训练数据预处理
第一步:将图片同性缩放,最小的边长为256
第二步:随机截取224×224的图像块
第三步:对裁剪的图像块进行随机水平翻转和RGB颜色变换
补充:也可以使用dense evalation 不裁剪直接将图片放进网络,将后面的全连接层改为卷积层