1-OPLD、Learning Point-guided Localization for Detection in Remote Sensing Images
算法介绍
A. 动机
主流的基于回归的应该目标检测算法癌症训练期间对每一个proposal匹配一个真值框,并将它们的偏移量编码作为监督信息。
而不论是RBB还是OBB,za8i这个过程当中都存在极端的情况,可能会导致目标回归的不连续问题。
RBB是五参数法表示的旋转矩形框,RBB中心点与OBB一致,将OBB的最低点作为原点,顺时针旋转水平轴,第一次碰到的边定义为w,另一条边为h,旋转角度为。。。为了获得更准确的检测结果,OBB的回归目标定义公式(1)。
其中 x , y , w , h , θ x,y,w,h,\theta x,y,w,h,θ分别表示RBB中心点的坐标,宽,高和角度。
变量 x g , x p x_g,x_p xg,xp分别对应真值框gt和proposal框。
而QBB是一种不规则的任意四边形,由四个坐标向量决定,第一个点的决定规则是特定的。图1(b)表示了DOTA中起始点的决定准则:最接近于左上顶点的作为起始点,本文中QBB的回归目标如公式(2):
为了更好地阐明目标回归的不连续问题, 我们采用smooth-L1计算包围框回归的损失,在不同旋转角度的情况下,两个框的IoU和结果损失如图2所示。
RBB回归的极端情况出现在包围框接近于水平框的情况下。当OBB到达水平线并继续旋转的时候,包围框的场合宽将会逆转,角度从90°变化0°。
QBB回归的极端情况出现在接近45°时,这种情况下,两个终止点和左上顶点的距离是同等的。一个轻微的角度改变将混乱终止点的顺序,导致监督点的不准确定位。我们旋转了45° 作为一个新的proposal,采用同样的方法产生目标,监督信息的改变在表I中可以看出。
本文认为,检测算法对相似目标提取到的特征理应是相似的。考虑出道QBB的起始点完全是由空间信息决定的,基于关键点预测,我们引入了一种QBB终止点的直接预测方式。
B. Overall Pipeline
OPLD 算法的总体流程如图3所示,属于两阶段检测算法,采取FPN作为骨干网络提取输入图像的特征,由于鸟瞰视角编码的特征不明显,遥感图像中可能存在大量相似的目标,采用RPN用于限制关键点预测,考虑到skew IoU计算带来的负担,RPN中预测的矩形框是普通的水平矩形框,而不是RRPN中旋转的矩形框。proposal被送入分类分支,其余Faster R-CNN的完全一致。在NMS处理之后,正proposal被选择输入后续的关键点预测。
终止点分支是一个全卷积网络,充分捕获空间信息。从RoI Align获取的RoI特征通过N个卷积层转为特征图,形状为 14 ∗ 14 ∗ P ∗ C 14*14*P*C 14∗14∗P∗C,其中P是预测点的数量,C是每个点预测的通道数量。在经过两个反卷积层的上采样之后,得到 56 ∗ 56 56*56 56∗56的P张特征图。
C. Center-point Post Processing
直接 预测QBB的端点更加灵活有效,同时也受到图像边界的限制。在航空目标检测领域,输入网络之前尺寸过大的图像被裁剪成块。当一个目标在裁剪过程中被截断,留存部分依赖于IOU。只有小部分目标被保留下来。即使如此,留存部分的OBB是畸形的, 而丢失部分的外观无法在OPLD中预测。
如图5所示,发现整个目标的RBB中心点(蓝色点),QBB两条对角线的中点(红,绿),QBB端点的中心点(黑色)几乎一致。截断目标的四个点之间的距离随着被截断程度的上升而增加。相反,RBB中心点更能准确表达整个目标的中心,不完全的QBB的外界旋转矩形几乎与完整的QBB相同。
因此,除了QBB的四个点之外,RBB的中心点也被加入关键点预测中。在推理阶段,通过将网络预测的中心点作为基准,对proposal的宽和高进行缩放,就能获取中心区域。中心区域的确定准则如公式(6)。
其中, ( x t 1 , y t 1 ) (x_{t1},y_{t1}) (xt1,yt1)表示中心区域的左上角点, ( x b r , y b r ) (x_{br},y_{br}) (xbr,ybr)表示中心区域的右下角点, ( x c t r , y c t r ) (x_{ctr},y_{ctr}) (xctr,yctr)是端点预测分支预测得到的中心点。 w p , h p w_p,h_p wp,hp表示proposal的宽和高。 n n n是一个常量,决定中心区域的缩放。
对于proposal的面积小于15625的, n = 10 n=10 n=10,否则 n = 15 n=15 n=15.如果包围框的两条对角线的中心点不在这个区域中,就表明这个框需要修正。
为了获得最终结果,结果框的四个端点被变换为旋转外界矩形,然后变换到QBB。
D. Detection Score Correction
在OPLD中,根据水平外界矩形得到分类得分,最终结果是其中的QBB,这将进一步扩大分类得分与回归质量之间的差距。在最终NMS阶段,可能会导致出现检测结果定位很差,但是分类得分很高的情况。如图6所示。
我们采用很直接的权重计算的方式将分类得分与定位质量结合起来,端点分支输出的特征图的响应影响定位得分。在更高置信度的情况下,端点定位越准确,端点准确的数量越多,整个框越准确。因此,四个端点的平均响应用于OBB的定位质量。因为端点预测无法确定类别,从分类分支得到的类别得分用于获取最终检测得分。
其中 s c o r e c l s score_{cls} scorecls是分类分支的置信度, s c o r e e n d p o i n t score_{endpoint} scoreendpoint是每个热力图上的最大响应值。为了满足概率定义, α + β = 1 \alpha+\beta=1 α+β=1。
实验部分
A. Datasets and Protocols
1)DOTA数据集:DOTA是最大的航空目标检测数据集之一。包含了2806张分辨率为 800 ∗ 800 800*800 800∗800到 4000 ∗ 4000 4000*4000 4000∗4000的图像。一共15个累呗,188282个样本实例,且是采用任意四边形标注的。包括飞机、棒球场、桥梁、田径场、小型汽车、大型汽车、船只、网球场、篮球场、储存罐、足球场、圆环、海港、游泳池以及直升飞机。