《Rich feature hierarchies for accurate object detection and semantic segmentation》翻译

2024-02-05 19:09:22

R i c h f e a t u r e h i e r a r c h i e s f o r a c c u r a t e o b j e c t d e t e c t i o n a n d s e m a n t i c s e g m e n t a t i o n Rich\ _{}feature\ _{}hierarchies\ _{}for\ _{}accurate\ _{}object\ _{}detection\ _{}and\ _{}semantic\ _{}segmentation Rich feature hierarchies for accurate object detection and semantic segmentation

R o s s G i r s h i c k ， J e f f D o n a h u e ， T r e v o r D a r r e l l ， J i t e n d r a M a l i k Ross\ _{}Girshick，Jeff\ _{}Donahue，Trevor\ _{}Darrell，Jitendra\ _{}Malik Ross Girshick，Jeff Donahue，Trevor Darrell，Jitendra Malik

用于精确目标检测和语义分割的丰富特征层次用于精确目标检测和语义分割的丰富特征层次用于精确目标检测和语义分割的丰富特征层次

摘要：在规范的PASCAL VOC数据集上测量的目标检测性能在过去几年中一直处于稳定状态。性能最好的方法是复杂的集成系统，通常将多个低级图像特征与高级上下文结合在一起。在本文中，我们提出了一种简单的且可扩展的检测算法，相对于之前VOC 2012上的最佳结果，该算法将平均精度均值（mAP）提高了30％以上，是mAP达到53.3％。我们的方法结合了两个关键的见解：（1）一个可以将高容量卷积神经网络（CNN）应用于自下而上的候选区域，以便对目标进行定位和分割；（2）当标记的训练数据不足时，对辅助任务进行有监督的预训练，然后进行特定领域的微调，可以显著提高性能。由于我们将候选区域与CNN结合在一起，因此我们将我们的方法称为R-CNN：具有CNN特征的区域。我们还将R-CNN与OverFeat（一种最近提出的基于相似CNN架构的滑动窗口检测器）进行了比较。我们发现，在200类ILSVRC2013检测数据集上，R-CNN优于OverFeat。

图1 目标检测系统概述。我们的系统(1)拍摄输入图像，(2)提取大约2000个自下而上的候选区域，(3)使用大型卷积神经网络（CNN）计算每个候选的特征，然后(4)使用类别的线性分类器SVM对每个区域进行分类。 R-CNN在PASCAL VOC 2010上实现了53.7％的平均精度均值（mAP）。为进行比较，[39]报告35.1％mAP在使用相同的候选区域，但采用空间金字塔和视觉效果的方法的情况下。流行的可变形的组件模型(deformable part models )的性能为33.4％。在200类的ILSVRC2013检测数据集中，R-CNN的mAP为31.4％，相比之前获得最好结果24.3％的OverFeat [34]有了很大的提高。

码农公寓

相关文章