[論文筆記] R-CNN

2023-11-01 21:57:34

RCNN 的架構

RCNN 架構主要由以下幾個部分組成:

1. 抽取圖像中多個候選區域

2. 抽取候選區域特徵

3. 分類候選區域

4. 後處理

CNN 特徵擷取器的參數，是所有類別共享的
CNN 輸出的特徵維度不高
儘管如此，仍然無法實時預測
- 預測 Region proposals + 抽取特徵 ~ 13s / image (GPU)
- 100000 類 SVM分類器 ~ 10s

訓練的過程也可以分成三個階段:

1. 使用 ILSVRC 2012 數據集 + 分類任務(1000類)，預訓練 CNN 模型

2. 使用 VOC 數據集 + 目標檢測任務(20 類)，Fine tune CNN 模型

3. 訓練多個 SVM 模型，每個 SVM 模型只負責判斷一個類目

Girshick, R. , et al. "Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation." IEEE Computer Society (2013).
He, K. , et al. "Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition." IEEE Transactions on Pattern Analysis and Machine Intelligence 37.9(2015):1904-1916.