1.提出了一个flow-free的端到端视频目标检测框架,平衡了速度和准确性,在ImageNet VID上达到了76.3mAP和20fps。
2.借鉴可变形卷积网络的思想,提出一个Light-Weight Deformable Neighbors框架进行连续帧之间的warp,用来替代光流。
LWDN框架介绍:将CNN分为两个部分,lower-part部分提取low-level特征,higher-part部分提取high-level特征,文章中采用固定设置的关键帧,每隔10帧为一个关键帧。
对于关键帧k,进行一个完整的CNN特征提取,会得到low-level特征,high-level特征;对于非关键帧k+i,仅提取其low-level特征,然后将关键帧和非关键帧的low-level特征一同送入一个
Weight Predictor Network,得到一个position-sensitive kernel weights和corresponding kernel offsets.然后用position-sensitive weight在关键帧的high-level特征上作用得到非关键帧的task -feature,这个task-feature就是对非关键帧的high-level特征的估计。
文章里对非关键帧的high-level特征进行估计时没用用到WPN得到的offsets,这个offsets会在后面的关键帧与关键帧融合中用到。