基于Pre-Train的CNN模型的图像分类实验
MatConvNet工具包提供了好几个在imageNet数据库上训练好的CNN模型,可以利用这个训练好的模型提取图像的特征。本文就利用其中的 “imagenet-caffe-ref”的模型,提取图像特征(softmax前一层的输出,4096维),在几个常用的图像分类的数据库中进行了相应的分类实验。这实验的过程中,有对图片进行左右翻转用于增加训练数据。下面结果的表格中:Original原始结果,Flip增加翻转后的结果。
需要用到的toolbox及模型:
MatConvNet:http://www.vlfeat.org/matconvnet/
imagenet-caffe-ref: http://www.vlfeat.org/matconvnet/pretrained/
liblinear: 用于训练SVM, 实验中采用linear SVM 以及 c=1
数据库及相应的实验结果:
1. Caltech-101以及Caltech-256
随机的重复进行10次实验,取分类的结果的平均值,Training Images是每一个类别使用的训练图片数目。
Caltech-101
Training Images | 5 | 10 | 15 | 20 | 25 | 30 |
Original | 76.73 ± 0.79 | 82.06 ± 0.36 | 84.10 ± 0.69 | 85.32 ± 0.50 | 86.26 ± 0.44 | 86.96 ± 0.89 |
Flip | 76.60 ± 0.49 | 82.09 ± 0.45 | 83.91 ± 0.49 | 85.46 ± 0.38 | 86.11 ± 0.34 | 86.98 ± 0.93 |
Caltech-256
Training Images | 15 | 30 | 45 | 60 |
Original | 63.76 ± 0.41 | 67.81 ± 0.56 | 69.71 ± 0.48 | 70.84 ± 0.69 |
Flip | 63.72 ± 0.51 | 67.74 ± 0.54 | 69.65 ± 0.76 | 70.75 ± 0.59 |
2. Oxford flowers-102
flowers-102是一个用于花卉精细分类的数据库,数据库提供了Train,Validation,Test的集合。在实验过程中,直接使用(Train+Validation)进行训练,Test进行测试。
Original | 84.50 |
Flip | 85.14 |
3. Scene-15
Scene-15是一个包含15类场景的数据,实验采用的每一场景取100张图片做训练,其余的做测试。重复进行10次实验
Original | 86.87 ± 0.75 |
Flip | 87.00 ± 0.41 |
4. UC Merced Land Use Dataset
UC Merced Land Use Dataset是一个包含21类场景遥感卫星图像分类数据库(每个类别100张图片),实验采用的80训练,20测试,重复10次。
Original | 94.90 ± 0.95 |
Flip | 95.14 ± 1.05 |
5. Flickr Material
Flickr Materia是一个关于材料的数据库,包含10种不同的材料(每种100张图片),实验采用50张做训练,剩下的50张做测试,重复10次实验。数据库还提供每一张图片的Mask,本实验没有考虑Mask
Original | 64.04 ± 2.20 |
Flip | 62.96 ± 1.54 |
6. UIUC Sports
UIUC Sports是一个包含8中运动类别的数据集,实验过程中,每一个类别取100张图片做训练,其余的做测试。重复进行10次。
Original | 94.88 ± 1.02 |
Flip | 95.34 ± 0.83 |
7. MIT Scene
MIT Scene包含有67个室内场景,实验过程中,每一个类别取80张图片做训练,其余的做测试。重复进行10次。
Original | 57.30 ± 1.18 |
Flip | 57.45 ± 0.72 |