Fine-grained Detection —— JP-MT、WS-DAN(2022.02.25)
1. JP-MT
文章:Fine-Grained Visual Classification via Progressive Multi-Granularity Training of Jigsaw Patches
原文.
包含2个部分内容:
- 渐进式训练PT(Progressive Training)
- 拼图JPG(Jigsaw Puzzle Generator)
1.1. Progressive Training
PT目的是做多尺度特征融合。
对不同层级的细粒度做特征提取,然后拼接融合。使用的是交叉熵损失。这样做可以兼顾局部与整体的特征。
1.2. Jigsaw Puzzle Generator
JPG目的是重组原图,为PT提供样本。
可以更好的提供不同层度细粒度的样本。思路很朴素,将原图按照比例切分出patch,在将位置随机排布,最后拼接成原图大小的重组图。
1.3. My Thinking
1.3.1. PT部分
可以理解为FPN的变体。
1.3.2. JPG部分
可以理解为mosaic数据增强的变体。但是也有适应性问题,不适用于目标可拆分的场景和背景特点有明显规则的场景。
1.4. My Summary
JP*生不同层级的细粒度样本。供PT学习不同层级的细粒度特征。
2. WS-DAN
文章:See Better Before Looking Closer: Weakly Supervised Data Augmentation Network for Fine-Grained Visual Classification
原文.
包含2个部分内容:
- 弱监督注意力学习WSAL(Weakly Supervised Attention Learning)
- 注意力机制数据增强AGDA(Attention-Guided Data Augmentation)
2.1. Weakly Supervised Attention Learning
WSAL目的是提取全局和局部特征,用于分类。
Backbone部分没什么特殊要说明的,关键部分在Attention和BAP。
Attention采用的是最简单1层卷积,Feature maps 经过一个kernel size 为 1 的卷积运算得到 Attention maps。 Attention maps 是由 Feature maps 降维之后得到的,具体降到多少维度 M 是一个超参数可以自行配置。
BAP(Bilinear Attention Pooling),顾名思义就是Bilinear Pooling。
2.2. Attention-Guided Data Augmentation
AGDA目的是得出局部特征感兴趣区域样本。
AGDA包含两部分,Attention Crop和Attention Drop。
Crop Mask是截取原图中的感兴趣区域(即局部关键特征),并将其上采用到原图尺寸,作为局部特征样本图,加入增强的数据集,参与模型训练。
Drop Mask是原图截取感兴趣区域后的剩余部分(即刨除局部关键特征),作为含有噪声的样本图,加入训练的数据集,参与模型训练。
2.3. My Thinking
2.3.1. WSAL部分
BAP实际上就是Bilinear Pooling在Attention上的应用,只是换了乘子。我认为这里精华应该在BAP的计算效率和BAP输出的有效降维,不过作者没细写。值得探讨。
2.3.2. AGDA部分
这部分如果真的做出来了,还是很漂亮的。是否真的做出如作者说的那样,我保留意见。这里应该有不少tricks和前期工作。如果如此简洁的结构就能做出来attention的锁定,那怎么会有transformer的出现。不过Attention Crop和Attention Drop这个思路还是很不错的,至少不存在适用性问题。
我觉得如果设计这部分的Loss还是很关键的,如何让Crop具有鲁棒性、容错性,不会因为attention出现错误而导致Crop扣出错误区域,值得思考。如何不让Crop越扣越错,值得研究。
2.4. My Summary
AGDA获取局部特征样本和具有噪声样本,供增强训练使用。
WSAL获取全局和局部特征信息用于分类。