1.FPN:feature pyramid Networks for object detection。(2016年cvpr上)
2.在Faster RCNN中使用FPN,可以提高2-3个点。
第一个图是图像金字塔,他在不同的尺度上预测图像的结果。第二个是类似于FasterRCNN,在经过Backbone之后进行预测。第三个是在不同的特征图上进行预测,相当于SSD。第四个图是,对不同的特征层进行融合生成新的特征层,最后再进行预测。
预测图中特征层的尺寸都是按2的倍数选取的。FPN中1x1的卷积核的作用:调整Backbone上不同特征层的channel,高层与底层的特征图融合,进行上采样之后add。完整的FPN结果:
在Faster RCNN中,应用RPN在P2到P5的特征图上生成proposal,将预测得到的proposal映射到P2-P5上,映射部分的特征送入到Faster RCNN中得到最终预测结果。较底层的会保留更多的底层细节信息,适合预测小型目标。每个预测特征层都有RPN,通过权值共享减少参数量。
计算proposal应该映射到那个预测特征层。