模式:tracking-by-detection
思路:通过时间空间的融合强化图片中每一个追踪到的目标的特征,用于相似度比较。
总体框架图:
Figure2中的Spatial-Temporal Relation Networks是本文的主要创新点,Hungarian Algorithm 可以选出追踪目标(s)与最新一帧中的探测目标(s)的最大匹配。Hungarian Algorithm不是神经网络没有可学习参数。
Spatial-Temporal Relation Module:
Spatial:
每帧中每个目标的空间特征提取方式:自身appearance feature + 周围目标特征,见式(2)。式(2)中ωij是权重Wv是简单的线性变换
权重ωij的计算见式(3)。类似于softmax层的操作。
ωijA的计算见式(4)。将同一帧中的不同目标的特征通过投影变换后得到的低维特征做点积,然后用投影后的特征维数做正则化。这里对WQ与WK的理解可以参考视频添加链接描述
通过在相对位置上应用一个小的网络,得到了ωijG。相对位置的计算如下i,j表示同一帧中两个不同目标。x,y,w,h表示目标的坐标和长宽。
Temporal:
将每帧中的具体目标的聚合了空间信息的特征,沿时间维度(不同帧)加权求和见式(5)。具体权重由每帧中具体目标的聚合了空间信息的特征决定,见式(6)。
式(6)中的WT是个权值向量尖括号<>表示点积,尖括号里面的意思是权值向量与具体目标的聚合了空间信息的特征做点积。
Relation Features:
关系特征:将追踪目标的融合了时空信息的特征,与最新一帧中探测到的目标的融合了空间信息的特征,做简单拼接后做线性变换。具体见式7。式7中的k表式候选帧。因为不一定要选t-1帧做拼接,所以文章用了10个候选帧。具体k怎么取,文章没有说。
余弦相似度特征:将追踪目标的融合了时空信息的特征,与最新一帧中探测到的目标的融合了空间信息的特征,做简余弦相似度计算。具体见式8。式8中Wc是简单的线性变换。一般来说,余弦值只能在两个输入特征在表示上兼容的情况下生效。显然多帧时空融合与单帧空间融合的特征在表示上是兼容的。
Location Features:
位置关系特征和运动关系特征:
*位置关系特征:*简单理解为,追踪目标与最新一帧中的探测到的目标的BBox位置与大小信息经过式(10)处理后,送入fL拼接,最后投到一个更高维的向量。
*运动关系特征:*简单理解为,追踪目标与最新一帧中的探测到的目标的BBox位置与大小信息经过式(11)处理后,投到一个更高维的向量。
式(9)中,∗∈{L,M}表示所研究的两种位置特征,位置和运动。第一个是边界框的标准化绝对位置:
所有关系特征的制作可用图6表示:
最后用得到的关系特征计算相似度分数。