本文链接:
https://arxiv.org/pdf/2106.04550.pdf
问题及创新点:
1.利用传统算法,选择一些可能存在物体目标的区域送入网络进行处理,作为伪标签(fbox);
2.除了图像块伪标签,本文还采用其他预训练方法得到的基干网络来产生高维特征(femb)和块分类(fcat,是否是proposal块)作为伪标签
上图中的Detector采用DETR或Deformable DETR,这部分即本文需要重新预训练的部分,后续用于下游任务中,Encoder采用别人已经训练好的模型(SwAV)
实验结果: