https://zhuanlan.zhihu.com/p/143747206 参考文章
输入端
- moasic数据增强
Backbone
- cspdarknet53
NECK
- ssp
- fpn+pan模块
Prediction
*IOU-GIOU-DIOU-CIOU
moasic数据增强
cspdarkent53网络
yolov4借鉴2019年cspnet设计经验,将其作为backbone设计
CSPNet论文地址:https://arxiv.org/pdf/1911.11929.pdf
CSPNet全称是Cross Stage Paritial Network,主要从网络结构设计的角度解决推理中从计算量很大的问题。
CSPNet的作者认为推理计算过高的问题是由于网络优化中的梯度信息重复导致的。
因此采用CSP模块先将基础层的特征映射划分为两部分,然后通过跨阶段层次结构将它们合并(concat),在减少了计算量的同时可以保证准确率。
dropblock
Yolov4中使用的Dropblock,其实和常见网络中的Dropout功能类似,也是缓解过拟合的一种正则化方式。
Dropblock在2018年提出,论文地址:https://arxiv.org/pdf/1810.12890.pdf
解决问题:dropout应用在全连接上有效的阻止了过拟合问题,但是Dropblock的研究者认为,卷积层对于这种随机丢弃并不敏感,因为卷积层通常是三层连用:卷积+激活+池化层,池化层本身就是对相邻单元起作用。而且即使随机丢弃,卷积层仍然可以从相邻的激活单元学习到相同的信息。
具体做法:对每一个特征图实施局部归零,且归零比率随着训练逐渐提高。
spp模块
FPN+PAN模块
上图对应简图如下:
yolo的FPN层仅仅使用最后一个76*76特征图(1),该特征图通过两个PAN结构(2)(3)
fpn特征金字塔负责提供强语义信息(自顶向下)
pan特征金字塔负责提供强位置信息 (自底向上 )
IOU-GIOU-DIOU-CIOU
GIOU:解决了两个iou相等时无法区分相交情况
D-IOU 考虑了边界框中心点的距离信息
CIOU loss考虑到了边界框高宽比的尺度信息(将真实框和预测框的信息都考虑构成一个影响因子)