大多数现有的WTAL方法依赖于多示例学习(MIL)范式,然而,现有的基于MIL的方法有两个局限性
(1)即只捕获动作中最具辨别力的帧,而忽略活动的全部范围。
(2)这些方法不能有效地对背景活动进行建模,这在定位前景活动方面起着重要作用。
2.主要贡献
(1)提出了一个新的框架,其中包含一个混合注意力机制,对整个行为进行建模;
(2) 提出了一种背景建模策略,通过使用辅助背景类引导注意力分数;
(3)在THUMOS14和ActivityNet数据集上实现了最先进的性能。
3.方法
1.为了捕捉完整的动作示例,删除了视频中更具辨别力的部分,并将注意力集中在不太具辨别力的部分。通过计算视频中所有片段的semi-soft attention分数和hard attentions分数来实现这一点。semi-soft attention分数通过将零值分配给soft attention分数大于阈值的片段来去除视频中更具辨别力的部分,而其他部分的分数保持与soft attention分数相同。由semi-soft attention引导的视频级别分类分数仅包含前景类。另一方面,hard attentions分数会去除视频中更具辨别力的部分,并将较低辨别度部分的注意力分数分配为1,这确保了由这种hard attentions引导的视频级类分数同时包含前景类和背景类。semi-soft和hard attentions都鼓励模型学习视频中动作的完整时序边界。
2.每个未修剪的视频都包含一些没有动作发生的背景部分。这些背景部分在分类分支中被建模为一个单独的类(即共有c个类,取第c+1类为背景类)。这种方法的一个主要问题是背景类不存在负样本,并且模型无法通过仅使用正样本进行优化来学习背景活动。为了克服这个问题,在注意力分支中提出了一种混合注意力机制,以进一步探索每个片段的“动作性”得分。加入了一个注意力模块,以根据背景建模策略区分前景和背景动作。目标是使得在没有活动示例(即背景活动)的帧中,每个片段的预测注意力得分较低,而在其他区域则较高。为了创建背景类的负样本,将每个类j的片段级类logit(即CAS)si(j)(即分类分支的输出)与第i个片段的片段级注意力分数ai(soft attention分数,是一个前景注意力分数)相乘,并获得注意力引导的片段级类分数,其中⊗ 是元素级的乘积。sattn作为一组没有任何背景活动的片段,可以被认为是背景类的负样本。
对于每个视频,首先将其划分为不重叠的片段,以提取片段级特征,提取RGB和光流的片段级特征。将两个特征连接起来,以获得完整片段特征,片段特征经过两个分支,上面的分类分支计算片段级分类分数以确定视频中所有活动的时序位置,通过top-k策略合并片段级分数,然后通过softmax操作以获得视频级类分数,且得到一个基本损失函数LBCL,使用的是交叉熵损失,下面是一个注意力分支,三种注意力分数的特点上面都已介绍,soft attention 分数通过与分类分支类似的操作得到视频级注意力引导类分数,并且三种注意力分别得到一个损失函数,使用的也是交叉熵损失。最终的损失函数还要包括稀疏损失和引导损失。稀疏度损失计算为soft attention分数的L1范数
最终结果会丢弃视频级类分数低于特定阈值的类,然后通过对所有片段的soft attention分数设置阈值来丢弃背景片段,通过选择剩余片段的一维连接来获得不可知类的行动建议,最后根据AutoLoc的内外评分计算分类得分,用不同的阈值来获取行动建议,并移除具有非最大抑制的重叠部分。