fast-rcnn里的一些具体内容

2024-01-22 17:58:05

NMS：Non-Maximum Suppression（非极大值抑制）

假设从一个图像中得到了2000个region proposals，通过在RCNN和SPP-net之后我们会得到2000*4096的一个特征矩阵，然后通过N个SVM来判断每一个region属于N个类的scores。其中，SVM的权重矩阵大小为4096*N，最后得到2000*N的一个score矩阵（其中，N为类别的数量）。

Non-Maximum Suppression就是需要根据score矩阵和region的坐标信息，从中找到置信度比较高的bounding box。

首先，NMS计算出每一个bounding box的面积，然后根据score进行排序，把score最大的bounding box作为队列中。接下来，计算其余bounding box与当前最大score与box的IoU，去除IoU大于设定的阈值的bounding box。然后重复上面的过程，直至候选bounding box为空。最终，检测了bounding box的过程中有两个阈值，一个就是IoU，另一个是在过程之后，从候选的bounding box中剔除score小于阈值的bounding box。需要注意的是：Non-Maximum Suppression一次处理一个类别，如果有N个类别，Non-Maximum Suppression就需要执行N次。

RPN网络得到的大约2万个anchor不是都直接给Fast-RCNN，因为有很多重叠的框。文章通过非极大值抑制的方法，设定IoU为0.7的阈值，即仅保留覆盖率不超过0.7的局部最大分数的box（粗筛）。最后留下大约2000个anchor，然后再取前N个box（比如300个）给Fast-RCNN。Fast-RCNN将输出300个判定类别及其box，对类别分数采用阈值为0.3的非极大值抑制（精筛），并仅取分数大于detect_th的目标结果（比如，只取分数60分以上的结果）。

码农公寓

相关文章