仅供个人记录学习
yolo总结
RCNN二阶段算法,需要先用算法在图片上生成样本候选框,然后再对这些框进行分类
yolo一阶段算法,不需要生成候选框,直接在样本上计算出框的坐标与大小,单次检测可得出结果。
yolov1 是anchor free,之后都是anchor base
YOLOV1
rcnn系列通过二阶段方法,先生成候选框,再进行分类和边框回归。yolov1则直接在图片上简单划分区域,直接回归区域内边框大小,置信度,类别。
结构
input :448*448*3
中间层则是一系列的卷积池化,最后是全连接层。
output:7*7*30
首先v1网络将输入图片划分为7*7的区域,每个区域输出30维向量。
每个区域内最多检测出两个边框,即30维:2个边框信息(cx,cy,w,h,conf)*2,20个类别概率。类别概率为条件概率,p(a|obj)该位置存在obj且为a的概率,conf为p(obj)*iou
YOLOV2
yolov1是anchor free的方法,v2则引入了anchor机制。
bn层
在batch上,归一化输出,均值为0,方差为1的数据分布,同时为了减少对原始数据分布状态的的破坏,引入缩放和偏移因子。
不同分辨率训练
使用224尺度训练特征提取网络,再使用488尺度fine tune网络
anchor机制
使用k-means聚类训练样本中的框大小,聚类距离指标使用1-iou值,最终选取5个anchor。
使用416作为输入,32倍下采样后,获得13*13的特征图。
约束预测框中心偏移
预测边界框的中心点相对于左上角的偏移,使用sigmoid函数,约束到0-1中(每个cell看做1,13*13个cell)
多尺度训练
每10个iteration随机选取一种输入图片大小训练,因为是全卷积网络,所以可以改变图片大小。
passthrough
处理下采样到13*13后,小目标特征消失的问题。
YOLOV3
使用darknet-53残差网络作为主干网络,多尺度的特征进行预测,
darknet-53
拥有53层卷积层,以及多次残差连接,最后舍弃fc使用gap(全局平均池化)
多尺度特征融合检测
下采样过程中,三种特征图大小13*13,26*26,52*52,在最后13*13进行预测后,使用转置卷积上采样,到另外两种大小,并使用特征图融合concate预测。
9种尺度的anchor
9种尺度,分为三类,分别在3种大小的特征图上进行预测。
13*13特征图,感受野最大,适合检测大物体,采用最大的3种框,26*26检测中物体,52*52感受野最小,检测小物体,采用最小的三种框。
YOLOV5
整个网络分为输入端、主干特征提取网络、Neck和预测端。
数据增强
采用mosaic数据增强,将多张照片随机裁剪、拼接,提升对小目标册检测效果。
自适应的anchor大小计算
之前版本的anchor通过聚类得出,但是在整体数据集上聚类,v5版本在每次训练时计算最佳anchor
Focus结构
下采样,提升速度,与map无关
CSP网络结构
cross stage partial networ,跨阶段局部网络
大量梯度信息被重复用来更新dense block的权重,可以反复学习相同的梯度信息。
FPN和PAN
608的输入,最后获得19、38、76的三种大小特征图通过FPN将高层语义信息传递到底层,PAN将底层位置信息传递到高层。