ImageNet Classification with Deep Convolutional Neural Networks
时间:2012
Intro
ImageNet是一个包含15 million的高分辨率图片数据集,其中包括了22000个类别,ILSVRC(ImageNet Large-Scale Visual Recognition Challenge)使用了ImageNet的子集作为比赛数据——约1.2 million张,其中包括了1000个类别
本文介绍了一个卷积神经网络AlexNet,它在ILSVRC-2012上取得了15.3%的top-5 error获得冠军,相比于第二名的26.2%
The Architecture
模型的整体结构如图所示,其中包括了八层——五个卷积层和三个全连接层,下面介绍其中的一些结构
ReLU Nonlinearity
使用ReLU比使用tanh或sigmoid作为非线性函数使得训练过程更快,具体地,使用4层卷积网络在CIFAR-10上训练,可以快六倍
在多个GPU上训练
由于GPU显存不够,所以网络需要在多个GPU上训练,这里将网络放在两个GPU上训练,每个GPU上训练一半,两个GPU上的网络在某些层上相连,连接的选择是使用交叉验证得到的
Local Response Normalization
尽管使用ReLU对于正规化的要求不在迫切,但是通过以下的正规化方法,可以增加模型的泛化能力
overlapping pooling
在本文中,使用overlapping pooling,stride=2,kernel size=3,这也略微提高了模型的泛化能力,一定程度上缓解了过拟合现象
整体结构
如图所示,模型包括8层,前五个是卷积层,后三个是全连接层,第2、4、5层卷积层仅与同在一个GPU上的之前的层相连,全连接层均与之前的所有单元连接,Response-normalization层在第一层和第二层卷积层之后,Maxpooling层在所有卷积层之后,ReLU在所有卷积层和全连接层之后。
避免过拟合
网络有60million个参数,而数据集只有1.2million,因此网络容易过拟合,为了避免,采用了以下两种方法
数据增强
使用label-preserving的方法进行数据变换
- crop+平移、垂直翻转
- 在RGB色彩通道上使用PCA
Dropout
在神经网络上使用模型集成代价昂贵,但dropout提供了一个比较便捷的方法,通过随机将神经元置0,网络在训练的时候会采样出不同的结构,使得模型更加鲁棒,本文在前两层全连接网络中使用了dropout
Details of learning
- batch size 128
- momentum 0.9
- weight decay 0.0005
Results
下图是卷积网络学习到的卷积核
结论
本文说明了深度卷积神经网络有能力实现复杂的分类任务,由于计算能力的限制,我们无法使用更大更深的网络。