End-to-end representation learning for Correlation Filter based tracking

2023-11-10 09:39:40

https://blog.csdn.net/shenziheng1/article/details/80943494

图：CFNet整体架构。非对称的孪生网络，非对称部分是由于correlation filter部分引起的，作者是想把cf引入到神经网络中，从而能够实现end-to-end优化。training images和testing images首先都经过相同的卷积特征提取网络提取特征，其中training images提取出来的卷积特征通过correlation filter得到线性模板，这个线性模板将通过与testing images的特征图进行交叉相关进而得到目标定位的响应图。

相关滤波器通过训练一个线性模板从而可以判别frame-frame之间目标的平移。由于该方法在傅里叶空间中存在快速解以及detector可以通过每一帧图像进行实时的更新。先前的工作主要是融合手工设计的特征和特定任务下卷积特征到DCF跟踪框架中。作者首先提出了将CF改写成可微分的神经网络层，进而和特征提取网络整合到一起从而实现end-to-end的优化。这样，提取到的卷积特征就紧密耦合到相关滤波器中。本文的最大亮点在于采用轻量级的架构却实现了state-of-the-art的结果。

原始的全卷积孪生神经网络仅仅考虑到了跟踪帧与初始帧的匹配，并没有跟踪模型跟踪过程。相比之下，作者每一帧都会计算一个新的模板，并且和之前的模板进行线性组合。然而在深度特征情况下，该方法并不会提高跟踪结果，作者对此的解释是因为深度卷积网络的特征表达很强，CF神经网络层仅相当于网络结构层的一部分。

小结：
1.端到端的训练CF,彻底将CF和CNN结合了起来。
2.CF层的BP是在傅里叶域计算的，速度快，跟踪算法实时性好。
3.没有用大型神经网络，性能好的同时，模型小很多。

公式推导过程：https://blog.csdn.net/discoverer100/article/details/80030294#commentBox

码农公寓

相关文章