循环GCN相关

粗读几篇循环GCN有关论文,简单进行总结

1.Understanding Human Gaze Communication by Spatio-Temporal Graph Reasoning

提出了一个时空图神经网络来明确表示社交场景中不同的注视互动,并通过信息传递来推断原子水平的注视通信。我们进一步提出了一种具有编码解码器结构的事件网络来预测事件级的注视通信。

循环GCN相关

对输入视频执行空间推理,通过消息传播更新节点标识。在c中,粗的箭头表示权重较高,具有视线的交互。

循环GCN相关

 

通过输入的社交视频(a),对于每一帧,我们构建一个初始完整的图G(b),通过节点表示注视通信实体(即人类和社会场景),并通过边缘表示它们的关系。在空间推理步骤(c)中,我们首先使用公式循环GCN相关更新边缘表示。(注意与(b)相比,改变的边缘颜色)。然后,在图结构更新阶段,我们通过使用循环GCN相关更新每个节点对之间的连通性来推断图结构。(注意与(b)相比的边缘厚度的变化)。在节点更新阶段,我们使用循环GCN相关更新节点嵌入(注意与(b)相比节点颜色的变化)。迭代上述过程可以在空间域内实现有效的消息传播。经过几次空间消息传递迭代后,我们将增强的节点特征输入到基于LSTM的时间推理模块中,捕获时间动态循环GCN相关并预测最终的原子凝视通信标签。然后,我们使用事件网络来推理事件级别标签,基于之前推断的原子级别标签组成,在更大的时间尺度上的一个长序列。

2.Actor-Transformers for Group Activity Recognition

本文试图从视频中识别个人行为和群体行为,提出了一个参与者-转换器模型,该模型能够学习并有选择地提取与群体活动识别相关的信息。我们分别用来自2D姿态网络和3D CNN的特征,向transformer提供丰富的特定于角色的静态和动态表示。

循环GCN相关

我们探讨了两个互补的静态和动态行动者表示的群体活动识别。静态表示由单帧的二维姿态特征捕获,而动态表示则由多个RGB或光流帧获得。这些表示由推断组活动的transformer

处理。

因此,我们不依赖任何先验的空间或时间结构,如基于rnn的模型。我们建议用transformer来识别群体活动。

循环GCN相关

模型概述:一个包含T帧和N个角色边界框的输入视频通过静态和动态两个分支进行处理。静态分支为每个参与者边界框输出HRNet[51]姿态表示。动态分支依赖于I3D[7],它接收堆叠的RGB或光流帧作为输入。为了在I3D之后提取角色级特征,我们应用了一个RoIAlign[24]层。transformer encoder(E)精炼和聚合actor级特征,然后是单独的动作和组活动分类器。支持两种融合策略。在早期融合中,我们结合E之前的两个分支的actor级特征,在后期融合中我们结合分类器预测分数。

3.Progressive Relation Learning for Group Activity Recognition

提出了一种基于深度强化学习的新方法,逐步细化群体活动的低级特征和高级关系。首先,我们构建了一个语义关系图(SRG)来明确地建模人与人之间的关系。然后,利用两个agent根据两个马尔可夫决策过程采用策略,逐步细化SRG。

循环GCN相关

 

特征提取(FD)逐步选择低级时空个体特征中信息最丰富的框架。一个关系门控(RG)进一步逐步细化了高级语义关系图(SRG),以发现与群体相关的关系。

循环GCN相关

首先通过Dlib库[15]中的对象跟踪器获得人的边界框。如图所示每个人的视觉特征(如em的外观和姿势)是通过卷积神经网络(称为Person-cnn)提取的。然后,将空间视觉特征输入一个长短期记忆网络(称为Person-LSTM)来建模单个的时间动态。最后,我们将所有人的堆叠视觉特征x与p和时间动态x与p连接为基本的时空特征。

通过CNN和LSTM提取了人的低水平时空特征。特征提取(FD)会选择特征的信息框架。然后利用蒸馏后的特征构建高级语义关系图(SRG),关系门控(RG)进一步细化SRG。“FC”表示全连接的图层。最后,根据所有时间的全局属性之和来预测活动类别。

上一篇:Transformer-Based Attention Networks for Continuous Pixel-Wise Prediction 基于Transformer注意力网络连续像素级与估计


下一篇:DETR-端到端的目标检测框架