本文将Faster-RCNN用在了I3D的feature map上,用于视频中多人多动作的检测
challege比赛第二名的整体方法是将Faster-RCNN作用在I3Dfeature上。训练时,以标注的关键帧为中心采样64帧(clip)过I3D,取feature中的关键帧feature过rpn网络检测人的前景区域,取回归后产生的top 300 proposal在时间上扩展成3维,经过RoIPooling后,过I3D动作分类,其中RoIPooling针对每个时间点的2Dfeature做,最后在时间轴上concat,形成4D feature。测试集上是21的mAP,流程上比第一名堆砌特征的做法要清晰很多。
结果: