CV baseline之SENet

2023-12-15 16:24:03

1：文字回答：用自己的语言描述注意力机制的方式（最好有图）？

给特征图提供权重

2：文字回答：Excitation中的Reduction ratio是什么意思？有什么作用？

r：控制第一个全连接层神经元个数。直接影响SE Block的参数量和计算量，r越大，参数越少；r=16时，在精度和参数上得到好的平衡

3：文字回答：SE-Module嵌入ResNet中有几个方式？

4种

4：文字回答：读完该论文，对你的启发点有哪些？

1) 本文研究通道之间的关系，表明模型的发展已经从框架走向细节

2）论文对注意力机制的解释，计算资源偏向那些有价值有意义的特征

3）低维嵌入的理解，将数据做了某种操作（变换、映射），将数据压缩后，可称为Embedding

4）实验结果表明，加入SE blocks可作为模型增加深度的互补，即同时增加SE Block和网络深度，均可带来性能提升

5）GoogLeNet系列模型难复现，表面其中有很多trick，所以模型实用性不如ResNet

6）要想证明模型提出的好。最好在多个数据集上进行测试验证

7）SE block嵌入ResNet时，FC层不需要加偏置

8）下一步可研究内容：不同层的Reduction ratio应可以不一致，可考虑设置更优的Reduction ratio，用RNN自动搜索

9）多个对比试验的精度没有明显差异时，可考虑从另一个角度描述，比如说SE units具有良好的鲁棒性

10）越靠前的层的特征越普通，越靠后越特殊，比如前面的层学习到边缘、颜色块等特征，后面学到物体的整体特征

11）训练技巧：为了让训练和测试保持一致，在最后几个epoch的时候，冻结住BN层的参数

12）训练技巧：Batchsize越大，学习率也可以越大，但是普通玩家没有那么大的GPU

5：代码实现(选做题)：在cifar-10上训练一个SE-ResNet-20 和 ResNet-20，将训练曲线，混淆矩阵图等信息贴出来分享

码农公寓