(ICCV-2021)用于步态识别的3D局部卷积神经网络(一)

用于步态识别的3D局部卷积神经网络


论文题目:3D Local Convolutional Neural Networks for Gait Recognition

paper是中国科学技术大学发表在ICCV 2021的工作

论文地址:地址


Abstract


\quad \quad 步态识别的目标是从人体的时间变化特征中学习关于人体形状的独特时空模式。由于不同的身体部位在行走过程中表现不同,因此可以直观地分别对每个部位的时空模式进行建模。然而,现有的基于部位的方法将每一帧的特征图平均划分为固定的水平条带以获得局部部位。显然,这些基于条带划分的方法无法准确定位身体部位。第一,不同的身体部位可能出现在同一条条带上(例如手臂和躯干),而一个部位可能出现在不同帧的不同条纹上(例如手)。第二,不同的身体部位拥有不同的尺度,甚至同一部位在不同的帧中也会有不同的位置和尺度。第三,不同的部位还表现出不同的运动模式(例如,运动从哪一帧开始,位置变化频率,持续多长时间)。为了克服这些问题,本文提出了一种新的3D局部操作,作为3D步态识别主干中的通用构建模块系列。这个3D局部操作支持在序列中提取具有自适应空间和时间尺度、位置和长度的身体部位的局部3D体积(volume)。这样一来,身体部位的时空模式就能很好地从3D局部邻域的特定部位尺度位置频率长度中学习到。实验表明,本文的3D局部卷积神经网络在流行步态数据集上实现了最先进的性能。代码可从以下网址获取:地址


1. Introduction


\quad \quad 步态是最重要和最有效的生物特征模式之一,因为它可以在远离摄像机的情况下进行身份验证,而无需受试者(subject)的配合。步态识别在犯罪预防法医鉴定社会安全保障方面有着广泛的应用。在现实场景中,除了步行运动引起的体型变化之外,背包穿大衣相机视角切换等变化也会导致身体外观的剧烈变化,从而给步态识别带来了巨大的挑战。步态识别的基本目标是从人体形状的时间变化特征中学习独特不变的表示。步态识别的早期工作集中于使用卷积神经网络(CNN)提取全局特征。GaitNet提出了一种自动编码器框架,从原始RGB图像中提取步态相关特征,然后使用LSTM对步态序列的时间变化进行建模。Thomas等人直接应用3DCNN来提取序列信息,使用一个在自然图像分类任务上预训练的模型。然而,全局特征不考虑身体形状的空间结构局部细节,因此在面对视角变化时没有足够的判别力。一个自然的选择是学习详细的基于身体部位局部特征,作为对全局特征的补充,或者学习它们两者的特征嵌入。

\quad \quad 由于人体由定义明确的部位组成,即头部、手臂、腿部和躯干,基于部位的模型有可能解决步态识别中的变化。以前的基于部位的模型通过将特征图等分成固定的水平条来提取局部特征。在GaitPart中,首先通过对每个输入帧的输出CNN特征图应用预先定义的水平分割来提取2D外观特征。然后,来自所有帧的同一条带的相应特征通过局部短距离 2D 部位特征的时间串联聚合。在 GaitSet和GLN中,首先将最后一个 2D 卷积的帧级特征图分割成均匀的条带,然后沿集合维度对其应用最大池化以提取集合级部位特征。在 MT3D中,使用多个时间尺度3D CNN来探索序列中的时间关系。然后,输出特征图也被划分为多个条带。然而,这些基于部位的步态识别方法忽略了两个问题。首先,人体的不同部位有不同的尺度,甚至同一个部位在不同的帧中也可能有不同的位置和尺度。其次,不同的部位表现出不同的运动模式,例如运动从哪一帧开始、位置变化的频率以及持续多长时间。因此,在一个步态周期,视觉外观时间运动变化是相互依赖的,人体不同的部位的特征也各不相同。这表明步态识别模型应该支持对每个特定人体部位的自适应 3D 局部体积的提取和处理。

\quad \quad 为了克服步态识别中的上述问题,本文提出了一种新的3D局部操作,作为3D步态识别主干中的通用构建模块系列。这个3D局部操作支持在序列中提取具有自适应空间和时间尺度、位置和长度的身体部位的局部3D体积(volume)。这样,不同身体部位的3D局部邻域在特定的部位尺度、位置和运动位置、频率、长度上进行处理,如图1所示。2D 局部操作已经被证明在图像识别中是有效的,其中利用可微分的 2D 注意力机制来产生位置和尺度平滑变化的 2D 图像/特征块。然而,由于时间注视(temporal foveation)的不同机制,将这个想法应用于 3D 局部操作是非常具有挑战性的。原因有两方面。1)像素的空间采样遵循人眼的焦点,而帧的时间采样则是遵循光流的分布。2) 空间采样处理2D切片,时间采样处理1D序列,时空采样处理3D视频体积。因此,需要一种新的2D和1D联合采样策略

(ICCV-2021)用于步态识别的3D局部卷积神经网络(一)

图1.主干CNN中的块。所有这些块都从局部邻域提取特征。在C2D和C3D中,局部邻域是固定的2D切片( k × k k \times k k×k)或3D体积( k × k × k k \times k\times k k×k×k)。非局部网络学习所有位置( H × W × T H\times W \times T H×W×T)的自适应长距离依赖。本文的3D局部CNN旨在为多个局部路径定位自适应3D体积,而不是固定的局部邻域,并提取相应的局部特征。

\quad \quad 局部操作包括4个模块:定位采样特征提取融合。定位模块用于学习头部躯干左臂右臂左腿右腿六个身体部位的自适应时空尺度位置时间长度。采样模块对平稳变化的位置尺度时间长度局部体积进行采样。与一般卷积块一样,特征提取模块由几个卷积和ReLU层组成。融合模块由全局和局部输出的级联层形成,后跟 1 × 1 × 1 1\times 1 \times 1 1×1×1卷积层。在实践中,现有3D主干CNN的任何构建块都可以被视为全局路径,并且提出的局部路径可以很容易地插入到这些块中,而无需改变训练方案。此外,对于不同的配置,局部操作中每个组件的体系结构都非常灵活。

这项工作的主要贡献总结如下:

  • 与C3D、P3D和非局部网络相比,作者为主干3D CNN设计了一个新的构建块,它包含人体特定部位的序列信息,称为3D局部卷积神经网络。
  • 实现了一种简单但有效的3D局部CNN,用于步态识别。该模型在两个最流行的数据集 CASIA-B 和 OU-MVLP 上优于最先进的步态识别方法。
  • 据作者所知,他们是第一个提出这个框架的人,该框架能够在任何3DCNN层中交互/增强全局和局部3D体积信息。

2. Related Works


\quad \quad Gait Recognition. 许多关于步态识别的研究都集中在空间特征提取时间建模。为了获得空间表示,大多数基于CNN的研究在整个特征图上沿空间维度采用常规2D或3D卷积运算。虽然对所有特征图进行同等扫描是很自然的,但这些方法忽略了步态任务中人体部位之间的显著差异。GaitSet、GaitPart、GLN、MT3D都试图通过将主干的输出特征图平均水平分割为m条带来获得部位级空间特征。然而,对于明确定义的人体部位,它既没有灵活性也没有细粒度性。此外,为了获得步态序列的时空表征,许多研究直接将整个序列压缩为一帧,或者从每个轮廓中独立提取帧级特征,并使用Max Pooling沿时间维度简单地聚合帧级特征。从而忽略了连续帧之间的时间相关性。另一种方法使用LSTM明确捕捉时间变化,在时间序列中聚合姿势特征,生成最终步态特征,这种方法保留了周期步态序列不必要的顺序约束。所有这些方法都分别提取空间特征时间特征,忽略了不同帧的不同位置的时空依赖性,这对于识别人类步态的时空运动模式至关重要。

\quad \quad Local-based model. 基于局部的模型已经在许多视觉任务中得到了应用。在细粒度图像分类中,许多工作已经自动定位了信息区域,以捕获细微的区分细节,从而使从属类彼此不同。Sun等人利用多通道注意力来学习几个相关区域。Wang等人使用一组卷积滤波器来捕获特征图中的判别性区域。Zheng等人提出了三线性注意力采样网络来从不同的细节中学习特征。

\quad \quad 在行人重识别领域,Li等人将第一卷积层的输出特征图横向平均分成m个局部区域,并分别学习局部/全局特征。Cheng等人将低层特征图横向分成四个相等的部分,并在最后一个全连接层之前将它们与全局流连接起来。杨等人提出了一组操作来定位静态图像人体的关键位置。所有这些先前基于局部的模型都旨在提取静态图像空间局部区域的模式。对于步态识别来说,很自然地将这一观点扩展到步态序列的时空维度,并提取特定时间间隔内特定人体部位的时空运动模式

\quad \quad Backbone CNNs. 通常使用的主干CNN表明,从局部邻域提取局部特征有助于改进视觉模型。如图1所示,C2D和C3D捕获局部邻域内的短距离相关性。它们的局部邻域是固定的2D切片( k × k k \times k k×k)或3D体积( k × k × k k \times k\times k k×k×k)。P3D将 3 × 3 × 3 3 \times 3\times 3 3×3×3卷积分解为空域上的 1 × 3 × 3 1 \times 3\times 3 1×3×3卷积滤波器时域上的 3 × 1 × 1 3 \times 1\times 1 3×1×1卷积。在非局部神经网络中,非局部操作被设计用来捕捉输入特征图中所有可能的位置之间的长距离依赖关系,其中整个输入可以被视为固定的全局邻域。本文的三维局部CNN被提出来为不同的局部路径定位一个自适应的三维局部体积,而不是一个固定的局部邻域

上一篇:【行情】以太坊刚刚突破160美元,并且容易跌破15.5万美元


下一篇:园区3d可视化系统对物联网技术、大数据的分析与应用