2020年
MyeongAh Cho, Taeoh Kim, Ig-Jae Kim, Kyungjae Lee, and Sangyoun Lee
IEEE Transactions on Information Forensics and Security, vol. 16, pp. 376-388, 2021
1 动机
- 由于缺乏数据库,HFR方法通常会在包含常规面部信息的大规模视觉数据库上利用预先训练的特征。但是,这些预训练的特征由于与视觉域的纹理差异而导致性能下降。
- 数据域之间存在巨大差距,需要通过学习域不变特征或通用空间投影方法来缩小域差距。
- 缺少HFR数据库,会导致在深度网络中的过拟合,并使学习通用特征变得困难。
2 工作
- 提出了一种图形结构模块RGM,以通过将面部组件建模为节点矢量和关系信息边缘来减少基本的域间隙。还考虑通过NAU的全局节点相关性来执行重新校准。
- 为了有效地将来自不同域的特征投影到公共潜在空间中,我们建议使用C-softmax。
- 所提出的模块可以通过插入通用特征提取器来克服HFR数据库的局限性。我们通过实验证明了对于三个不同的主干网和五个HFR数据库的卓越性能。
3 方法
3.1 Relation Module(RM)
- 当将NIR或VIS面部图像输入到预先经过大规模视觉面部图像训练的单个面部识别网络时,由于域差异,该网络无法正常工作。HFR数据库大多是不成对的,图像数量少,因此很难对预先训练的深度进行微调。为了解决这个问题,RM专注于较少依赖域信息的成对面部组件的关系。
- 具体流程:
- 将预训练网络最后一层卷积层的输出作为RC的输入,通过预训练网络提取出特征feature maps。
- 该N×N大小的feature maps在空间上的矢量代表面部分量。面部分量进行组合,一共有N ^ 2 ×(N ^ 2 + 1)/ 2对。
- 将组合对通过全连接层嵌入到关系向量(64维)中。
- 将关系向量展平拼接,然后通过全连接层得到一个嵌入向量。
3.2 Relational Graph Module(RGM)
- RM考虑了每个成对的组合并将其全部嵌入到L维向量中,所以在小型HFR数据库上进行训练时,它会带来计算复杂性问题,并伴随着过拟合的风险。
- Node Embeddin(节点嵌入):
- 通过转换矩阵W1将C维的节点向量嵌入到d维向量中;
- Relation Propagation Based on Directed Relation Extraction(基于定向关系提取的关系传播):
- 因为代表脸部的组件对于每个类别都是相同的,所以生成固定数量的组件节点,提取每个节点的有向边。
- ni 和 nj 是两个节点,通过We找到两者之间的关系,然后使用Sigmoid函数将范围限制在[0,1]之间,从而得到A。一个节点将对其他所有节点组成一对计算边缘。Sigmoid激活函数分别查看每个值,从而允许独立的关系值。
- 每个节点向量与所有其他节点向量相互依赖地传播通过边缘,从而成为传播节点向量ni *。每个面部组件对每个标识具有不同的关系,并且使用该关系更新节点可以将精力集中在组件关系信息上,而不是像纹理信息之类的视觉域特征上。
3.3 Node Attention Unit(NAU)
- 在RGM传播之后,由于每个节点都失去了空间相关性,通过考虑节点间相关性,可以通过NAU重新校准每个包含关系信息的节点向量。
- 沿着嵌入维度通过全局平均池逐点挤压节点(节点池)。此后,对完全连接的层执行节点间推理,以生成节点级比例值s。这些值表示节点重要性,它乘以传播的节点。
- 根据节点的全局重要性,此过程产生重新校准效果,并将注意力集中在身份的特征方面。
3.4 C-softmax
- 当减小m1时,由于斜率平缓,大相似区域的余量增加;当增加m2时,相似度较小区域的边距增加。为了防止出现负余量,我们使用诸如m1-m2≥1的约束。
- 当类余弦相似度较大或较小时,ArcFace会减少余量,并在中点附近增加余量(b),而当类余弦相似度较大时,C-softmax会增加余量(c)。这有助于控制具有域差异的类,因为它可以有效地调整类间的边距。
4 实验
5 讨论
- 在每幅图像中,选择一个参考节点向量,并可视化它的强关系节点向量。红色区域表示空间位置,而绿色区域表示nj的空间位置,对应于前5个关系边缘值Ai,j。
- 通过将图库的VIS图像和探测器NIR或Sketch图像分别传递到RGM,可以获得这些关系,从而揭示出每个身份在脸部上都具有相似的关系,而不管其域如何。
- 可视化NAU,si在同一主题内节点重要性的模式相似。也就是节点针对每个身份的关注程度相似。
- 无论域如何,关系传播节点的重要性模式(RGM的输出)在主题之间是不同的,并且在每个主题内都是相似的。