目标检测算法——YOLOV1

2022-08-14 17:59:34

1、主要贡献（优点）

一阶段、快速、端到端训练

*快速，pipline简单.
*背景误检率低。
*通用性强。YOLO对于艺术类作品中的物体检测同样适用。它对非自然图像物体的检测率远远高于DPM和RCNN系列检测方法。

2、主要思路

通过全卷积网络，将输入图像映射为一个7*7*30 的张量，7*7是吧整个图像划为7*7个网格，每个网格设置2个预选框（训练可以理解为进化的思路），如下左图；30是每个位置的编码如下右图。每个网格的两个预选框共享分类结果。

20个对象分类的概率：YOLO支持识别20种不同的对象（人、鸟、猫、汽车、椅子等）

2个bounding box的位置：每个bounding box需要4个数值来表示其位置，(Center_x,Center_y,width,height)

2个bounding box的置信度：即该bounding box内存在对象的概率 * 该bounding box与该对象实际bounding box的IOU。当该格点不含有物体时，该置信度的标签为0；若含有物体时，该置信度的标签为预测框与真实物体框的IOU数值。

推理阶段，简单的概括就是：

(1) 给个一个输入图像，首先将图像划分成7*7的网格

(2) 对于每个网格，我们都预测2个边框（包括每个边框是目标的置信度以及每个边框区域在多个类别上的概率）

(3) 根据上一步可以预测出7*7*2个目标窗口，然后根据阈值去除可能性比较低的目标窗口，最后NMS去除冗余窗口即可

3、具体细节

1）inout

输入就是原始图像，唯一的要求是缩放到448*448的大小。主要是因为YOLO的网络中，卷积层最后接了两个全连接层，全连接层是要求固定大小的向量作为输入。

2）backbone

Darknet（Google net 改进）

24卷积+2全连接，交替的1*1卷积层：减少特征空间。

在ImageNet-1000类上预训练（使用一半的分辨率224*224input），使用前20个卷积层，接平均值池化，最后接全连接，训了大约一个星期，在ImageNet 2012 val set上top-5 acc是88%；在detection阶段使用448*448（detection需要细粒度的视觉信息，因此把输入分辨率从224*224提高到448*448），增加四个卷积层和两个全连接层（随机权重）。

激活函数：最后一层使用线性激活函数，其他层使用leaky RELU。

3）neck & head

如上面的两个图，总共有 49*2=98 个候选区，没有预先设置2个bounding box的大小和形状，也没有对每个bounding box分别输出一个对象的预测。它的意思仅仅是对一个对象预测出2个bounding box，选择预测得相对比较准的那个（一个网格预测多个box，希望的是每个box predictor专门负责预测某个object。具体做法就是看当前预测的box与ground truth box中哪个IoU大，就负责哪个）。有点不完全算监督算法，而是像进化算法。一张图片最多可以检测出49个对象。计算出该Object的bounding box的中心位置，这个中心位置落在哪个grid，该grid对应的输出向量中该对象的类别概率是1，负责预测该object；其他grid对该Object的预测概率设为0（不负责预测该对象）。

位置坐标中，Center_x,Center_y 回归的是距离7*7网格中物体中心点对应的一个网格的坐上角的坐标，为归一化值。width,height，也是整图的归一化值。

类别概率中，无论每个网格预测的bounding box数目B是多少，我们都只为一个网格预测一组类别概率。在test阶段，将条件概率和每个box的confidence相乘：