Deformable Convolutional Networks
1.产生背景
视觉识别中一个挑战是如何适应目标在比例、姿势和部分变形,一种解决方案是扩大数据集到包含所有变化类型的物体,方法有仿射变换。第二种是通过变换不变性特征和算法来提高特征表达的鲁棒性[遇到未见过的情形时算法仍然有较好的输出]。后者通过手工设计的特征不具有“远见”,预判不到对任务有意义的未知几何变换,而且有些已知变换很难通过手工设计不变性特征进行建模。
当今几何变换建模的能力主要来源于数据扩增和简单手工设计的模块,如最大池化带来微小的平移不变性。所以CNN被固有的大的、未知的变换限制着。本文用可变性卷积来提取特征,增加空间采样位置,感受野根据物体的大小和形状自适应调整,对背景、小目标、大目标采取根据物体量身定做几何形状的卷积核,从而提取到各类物体更好的特征。
2.可变形
- Deformable Convolution:通过卷积层学习关于卷积核形状的偏置矩阵,再与特征图进行对应元素进行相乘获取特征提取的结果,这样摒弃了之前常规卷积对图像中所有物体均采取相同大小的卷积核,提高了特征提取能力。下图1是常规卷积和可变形卷积在空间上的操作上的不同,图2是具体的3*3卷积。
- Deformable RoI Pooling:类似于可变形卷积,该方法在RoI
Pooling的基础上增加了影响池化范围的偏置,可以利用bin(感兴趣区域划分的大小相同的块)外的特征值,提高了灵活性。如下图所示。
3.直观效果
可变形卷积的感受野根据物体的大小和形状自适应调整。
可变形RoI pooling
要去跨年了,未完待续!!!