R i c h f e a t u r e h i e r a r c h i e s f o r a c c u r a t e o b j e c t d e t e c t i o n a n d s e m a n t i c s e g m e n t a t i o n Rich\ _{}feature\ _{}hierarchies\ _{}for\ _{}accurate\ _{}object\ _{}detection\ _{}and\ _{}semantic\ _{}segmentation Rich feature hierarchies for accurate object detection and semantic segmentation
R o s s G i r s h i c k , J e f f D o n a h u e , T r e v o r D a r r e l l , J i t e n d r a M a l i k Ross\ _{}Girshick,Jeff\ _{}Donahue,Trevor\ _{}Darrell,Jitendra\ _{}Malik Ross Girshick,Jeff Donahue,Trevor Darrell,Jitendra Malik
用 于 精 确 目 标 检 测 和 语 义 分 割 的 丰 富 特 征 层 次 用于精确目标检测和语义分割的丰富特征层次 用于精确目标检测和语义分割的丰富特征层次
摘要:在规范的PASCAL VOC数据集上测量的目标检测性能在过去几年中一直处于稳定状态。性能最好的方法是复杂的集成系统,通常将多个低级图像特征与高级上下文结合在一起。在本文中,我们提出了一种简单的且可扩展的检测算法,相对于之前VOC 2012上的最佳结果,该算法将平均精度均值(mAP)提高了30%以上,是mAP达到53.3%。我们的方法结合了两个关键的见解:(1)一个可以将高容量卷积神经网络(CNN)应用于自下而上的候选区域,以便对目标进行定位和分割;(2)当标记的训练数据不足时,对辅助任务进行有监督的预训练,然后进行特定领域的微调,可以显著提高性能。由于我们将候选区域与CNN结合在一起,因此我们将我们的方法称为R-CNN:具有CNN特征的区域。我们还将R-CNN与OverFeat(一种最近提出的基于相似CNN架构的滑动窗口检测器)进行了比较。我们发现,在200类ILSVRC2013检测数据集上,R-CNN优于OverFeat。