问题:
基于骨架的动作识别,深度流形-流形网络。
研究现状总结:
为了处理基于奇异值分解矩阵表示的动作识别,需要对黎曼流形进行特征学习和降维,以降低奇异值分解运算中的计算成本,同时提高识别性能。然而,标准的特征学习或欧氏空间中的降维操作,例如卷积、递归单元和激活函数,不能直接使用,因为它们可能破坏黎曼结构,这导致SPD矩阵的原始分布的失真。为了解决这个问题,提出了许多方法,例如流形到流形的变换和几何感知方法,来寻找黎曼结构上用于降维的最佳SPD嵌入矩阵。最近,黄等人[20]采用深度学习技术,通过设计双线性映射(BiMap)层和特征值校正(ReEig)层,提出了一个黎曼网络来从SPD矩阵中学习更多的判别特征。
除了执行降维操作之外,还值得注意的是,当处理顺序数据时,时间动态信息对于减少单个矩阵描述符(例如,协方差)的模糊非常有用。递归学习和卷积神经网络方法已经成功地证明了这一点。然而,这些方法是在欧几里德距离度量下开发的。对于流形学习问题,传统的欧氏距离度量将不再适用,因此需要开发新的学习方法,例如在流形上设计特殊点扩散描述符。为此,有几个关键问题需要解决:
1)如何对保持流形的SPD矩阵进行局部卷积滤波?
2)如何沿着黎曼流形进行递归学习,从而对时间动力学进行建模?
3)如何在度量的计算过程中避免计算代价高昂的SVD,以降低计算成本?
方法:
受深度学习的最新进展,特别是最近文献[20]中提出的SPD矩阵的深度神经网络体系结构的激励,本文提出了黎曼流形下的深度流形到流形变换网络(DMT网络)方法来解决上述三个主要问题。特别地,我们在DMT网络模型中设计了SPD卷积层用于SPD矩阵的局部卷积滤波,其中我们强制卷积滤波器是SPD矩阵,使得卷积结果也是SPD矩阵。本文还论证了流形上SPD卷积滤波的可行性。此外,我们还设计了一个非线性激活层,只需要执行元素级操作,不需要SVD操作。此外,为了对序列动力学信息进行建模,我们设计了一个保持流形的递归层,其目的是对分段子片段的SPD矩阵进行顺序编码。
DMT行动识别网络的架构。描述基于骨架的动作的原始时空SPD特征被馈送到网络中。SPD卷积层(第三部分)包括局部SPD卷积滤波和非线性SPD激活特征空间相关性。SPD递归层(第三-B节)通过流形保持捕捉顺序SPD描述符的时间依赖性。对角化层(第三部分)将特殊点扩散矩阵转换成特定的对角化特殊点扩散矩阵,以便在下一层实现有效的度量计算。在理论保证下,矩阵描述符从一个黎曼流形流向另一个黎曼流形,以搜索更多的判别流形空间。“c”是指GRU和DMT网络的特征的连接。
结论:
我们提出了处理时空动态序列动作识别问题的DMT网络模型,该模型将整个序列分割成若干片段,每个片段用一个特殊点扩散矩阵描述。由于离散点扩散矩阵嵌入在黎曼流形上,我们设计了一系列新的层来变换离散点扩散矩阵,以提取判别特征,同时保留流形上的变换矩阵。构造的层包括单位圆卷积、非线性激活、单位圆递归和对角化层。所有这些层都不需要高计算的奇异值分解操作。该模型适用于流形的表示学习,对深度学习和流形学习研究领域有一定的参考价值。此外,通过将DMT网络与基本层融合,进一步提高了基于骨架的动作识别的识别性能。我们对基于骨骼的动作识别任务进行了实验,并在相同的实验环境下实现了最先进的性能。
摘要:
In this paper, we will investigate skeleton-based action recognition by employing high-order statistics feature and first-order statistics feature, where the high-order statistics feature is characterized by symmetric positive definite (SPD) matrices. Noting that SPD matrices are theoretically embedded on Riemannian manifolds, we propose an end-to-end deep manifold-to-manifold transforming network (DMT-Net), which can make SPD matrices flow from one Riemannian manifold to another one for facilitating the action recognition task. To learn discriminative SPD features from both spatial and temporal dependencies, we propose a neural network model with three novel layers on manifolds: i.e., (1) the local SPD convolutional layer, (2) the non-linear SPD activation layer, and (3) the Riemannianpreserved recursive layer . The SPD property is preserved through all layers without the singular value decomposition (SVD) operation, which has to be conducted in the existing methods with expensive computation cost. Furthermore, a diagonalizing SPD layer is designed to efficiently calculate the final metric for the classification task. Finally, DMT-Net is further fused with a first order layer to capture temporal evolution information. To evaluate our proposed method, we conduct extensive experiments on the task of action recognition, where the input signals are represented as SPD matrices. The experimental results demonstrate that the proposed method is competitive over state-of-the-art methods.