原子动作检测 A Better Baseline for AVA

2023-07-26 21:50:04

本文将Faster-RCNN用在了I3D的feature map上，用于视频中多人多动作的检测

challege比赛第二名的整体方法是将Faster-RCNN作用在I3Dfeature上。训练时，以标注的关键帧为中心采样64帧(clip)过I3D，取feature中的关键帧feature过rpn网络检测人的前景区域，取回归后产生的top 300 proposal在时间上扩展成3维，经过RoIPooling后，过I3D动作分类，其中RoIPooling针对每个时间点的2Dfeature做，最后在时间轴上concat，形成4D feature。测试集上是21的mAP，流程上比第一名堆砌特征的做法要清晰很多。

结果：

码农公寓

相关文章