ImageNet Classification with Deep Convolutional Neural Networks

ImageNet Classification with Deep Convolutional Neural Networks

原文地址

时间:2012

Intro

ImageNet是一个包含15 million的高分辨率图片数据集,其中包括了22000个类别,ILSVRC(ImageNet Large-Scale Visual Recognition Challenge)使用了ImageNet的子集作为比赛数据——约1.2 million张,其中包括了1000个类别

本文介绍了一个卷积神经网络AlexNet,它在ILSVRC-2012上取得了15.3%的top-5 error获得冠军,相比于第二名的26.2%

The Architecture

模型的整体结构如图所示,其中包括了八层——五个卷积层和三个全连接层,下面介绍其中的一些结构
ImageNet Classification with Deep Convolutional Neural Networks

ReLU Nonlinearity

使用ReLU比使用tanh或sigmoid作为非线性函数使得训练过程更快,具体地,使用4层卷积网络在CIFAR-10上训练,可以快六倍
ImageNet Classification with Deep Convolutional Neural Networks

在多个GPU上训练

由于GPU显存不够,所以网络需要在多个GPU上训练,这里将网络放在两个GPU上训练,每个GPU上训练一半,两个GPU上的网络在某些层上相连,连接的选择是使用交叉验证得到的

Local Response Normalization

尽管使用ReLU对于正规化的要求不在迫切,但是通过以下的正规化方法,可以增加模型的泛化能力
ImageNet Classification with Deep Convolutional Neural Networks

overlapping pooling

在本文中,使用overlapping pooling,stride=2,kernel size=3,这也略微提高了模型的泛化能力,一定程度上缓解了过拟合现象

整体结构

如图所示,模型包括8层,前五个是卷积层,后三个是全连接层,第2、4、5层卷积层仅与同在一个GPU上的之前的层相连,全连接层均与之前的所有单元连接,Response-normalization层在第一层和第二层卷积层之后,Maxpooling层在所有卷积层之后,ReLU在所有卷积层和全连接层之后。
ImageNet Classification with Deep Convolutional Neural Networks

避免过拟合

网络有60million个参数,而数据集只有1.2million,因此网络容易过拟合,为了避免,采用了以下两种方法

数据增强

使用label-preserving的方法进行数据变换

  • crop+平移、垂直翻转
  • 在RGB色彩通道上使用PCA

Dropout

在神经网络上使用模型集成代价昂贵,但dropout提供了一个比较便捷的方法,通过随机将神经元置0,网络在训练的时候会采样出不同的结构,使得模型更加鲁棒,本文在前两层全连接网络中使用了dropout

Details of learning

  • batch size 128
  • momentum 0.9
  • weight decay 0.0005

Results

ImageNet Classification with Deep Convolutional Neural Networks
ImageNet Classification with Deep Convolutional Neural Networks
ImageNet Classification with Deep Convolutional Neural Networks
下图是卷积网络学习到的卷积核
ImageNet Classification with Deep Convolutional Neural Networks

结论

本文说明了深度卷积神经网络有能力实现复杂的分类任务,由于计算能力的限制,我们无法使用更大更深的网络。

上一篇:序列建模:时间卷积网络取代RNN(An Empirical Evaluation of Generic Convolutional and Recurrent)论文 pdf


下一篇:AI:2020年6月24日北京智源大会演讲分享之机器学习前沿青年科学家专题论坛——10:10-10:40鬲融教授《Towards a theoretical understanding of l 》