大尺寸的卷积核可以带来更大的感受野,但也意味着更多的参数,并且《Rethinking the Inception Architecture for Computer Vision》的作者提出可以用 $2$ 个连续的 $3\times3$ 卷积层( stride=1
)组成的小网络来代替单个的 $5\times 5$卷积层可以保持感受野范围的同时又减少了参数量:
卷积核设置 | 参数个数 |
---|---|
一个 $5\times 5$ | $5\times 5+1=26$ |
两个级联的 $3\times 3$ | $(3\times 3+1)\times 2=20$ |
由于参数个数仅与卷积核大小有关,所以 $3\times 3$ 级联卷积核占优势,并且用 $2$ 个级联的 $3\times3$ 卷积层( stride=1
)组成的小网络来代替单个的 $5\times 5$卷积层增加了非线性变换的操作使得模型的泛化能力进一步的提高。
- 两个 $3\times 3$ 的堆叠卷基层的有限感受野是 $5\times 5$ ;三个 $3\times 3$ 的堆叠卷基层的感受野是 $7\times 7$,故可以通过小尺寸卷积层的堆叠替代大尺寸卷积层,并且感受野大小不变。
- 多个 $3\times 3$ 的卷基层比一个大尺寸卷积层有更多的非线性(更多层的非线性函数),使得判决函数更加具有判决性,并且起到隐式正则化的作用。
- $1\times 1$ 卷积核除了具有降低参数量和增加非线性的作用外,还可以起到对通道数的升降进行控制的作用 (达到特征降维和升维的作用)。