视频目标检测AAAI19新文Video Object Detection with Locally-Weighted Deformable Neighbors

2023-12-15 16:19:57

1.提出了一个flow-free的端到端视频目标检测框架，平衡了速度和准确性，在ImageNet VID上达到了76.3mAP和20fps。

2.借鉴可变形卷积网络的思想，提出一个Light-Weight Deformable Neighbors框架进行连续帧之间的warp，用来替代光流。

LWDN框架介绍：将CNN分为两个部分，lower-part部分提取low-level特征，higher-part部分提取high-level特征，文章中采用固定设置的关键帧，每隔10帧为一个关键帧。

对于关键帧k，进行一个完整的CNN特征提取，会得到low-level特征，high-level特征；对于非关键帧k+i，仅提取其low-level特征，然后将关键帧和非关键帧的low-level特征一同送入一个

Weight Predictor Network，得到一个position-sensitive kernel weights和corresponding kernel offsets.然后用position-sensitive weight在关键帧的high-level特征上作用得到非关键帧的task -feature，这个task-feature就是对非关键帧的high-level特征的估计。

文章里对非关键帧的high-level特征进行估计时没用用到WPN得到的offsets，这个offsets会在后面的关键帧与关键帧融合中用到。

码农公寓

相关文章