End-to-end representation learning for Correlation Filter based tracking

https://blog.csdn.net/shenziheng1/article/details/80943494
End-to-end representation learning for Correlation Filter based tracking
图:CFNet整体架构。非对称的孪生网络,非对称部分是由于correlation filter部分引起的,作者是想把cf引入到神经网络中,从而能够实现end-to-end优化。training images和testing images首先都经过相同的卷积特征提取网络提取特征,其中training images提取出来的卷积特征通过correlation filter得到线性模板,这个线性模板将通过与testing images的特征图进行交叉相关进而得到目标定位的响应图。

相关滤波器通过训练一个线性模板从而可以判别frame-frame之间目标的平移。由于该方法在傅里叶空间中存在快速解以及detector可以通过每一帧图像进行实时的更新。先前的工作主要是融合手工设计的特征和特定任务下卷积特征到DCF跟踪框架中。作者首先提出了将CF改写成可微分的神经网络层,进而和特征提取网络整合到一起从而实现end-to-end的优化。这样,提取到的卷积特征就紧密耦合到相关滤波器中。本文的最大亮点在于采用轻量级的架构却实现了state-of-the-art的结果。

原始的全卷积孪生神经网络仅仅考虑到了跟踪帧与初始帧的匹配,并没有跟踪模型跟踪过程。相比之下,作者每一帧都会计算一个新的模板,并且和之前的模板进行线性组合。然而在深度特征情况下,该方法并不会提高跟踪结果,作者对此的解释是因为深度卷积网络的特征表达很强,CF神经网络层仅相当于网络结构层的一部分。

小结:
1.端到端的训练CF,彻底将CF和CNN结合了起来。
2.CF层的BP是在傅里叶域计算的,速度快,跟踪算法实时性好。
3.没有用大型神经网络,性能好的同时,模型小很多。

公式推导过程:https://blog.csdn.net/discoverer100/article/details/80030294#commentBox

上一篇:redis6.0.5之HyperLogLog阅读笔记1-基数估算前言翻译


下一篇:语音合成论文优选:ICASSP 2021 M2VoC 第2名Investigating on Incorporating Pretrained and Learnable Speaker Repres