为什么要学习偏移而不是实际值?
Anchor已经粗略地“框住了”输入图像中的目标,明显的一个问题是:框的不够准确。因为受限于Anchor的生成方式,Anchor的坐标永远都是固定的那几个。所以,如果我们需要预测相对于Anchor的offset,那么,就可以通过预测的offset调整锚框位置,从而得到更精准的bounding box。
为什么要学习偏移系数而不是偏移量?
因为w和h都是正数,而网络的最后一层回归输出的时候无法保证正负的,所以最简单的方法就是对预测输出求exp,这样就保证了预测值恒为正,那么反过来,对预测目标就是求log