Gaze Estimation学习笔记(2)-It's Written All Over Your Face Full-Face Appearance-Based Gaze Estimation

2023-12-21 15:31:33

前言
将完整脸部图像作为输入的空间权重CNN方法
- 将full-face image作为输入的原因
- 加入空间权重的CNN方法
  - 基础CNN结构
  - 空间权重机制
实验及分析
- 头部姿态、面部表现视线方向的关系
- 不同脸部区域的重要性分析
结论

前言

本篇博客是笔者在读完论文“It’s Written All Over Your Face:Full-Face Appearance-Based Gaze Estimation”后的一个小小总结。

该篇论文主要提出了一种基于完整脸部图像，通过加入了空间权重的CNN得到2D、3D视线方向的方法，并对完整脸部图片对于视线检测的作用进行了相关实验与分析。

论文主要分为两大部分。第一部分主要介绍论文作者提出的新视线检测方法：引入空间权重的CNN。这部分中，论文作者阐述了将完整脸部图片作为输入、在CNN中引入空间权重的原因，并根据后续实验分析这种新方法的性能，阐述了完整脸部图像对视线预测的作用。

将完整脸部图像作为输入的空间权重CNN方法

论文作者提出了一种CNN结构，直接根据输入的完整面部图像，得到2D或3D的视线方向，在MPIIGaze数据集上获得了较大的准确度提升（14.3%）。这种CNN结构包含一种空间权重机制，将脸部不同区域的信息编码，与经典CNN网络的特征图结合，提取了面部不同区域包含的有助于判断视线方向的信息。

将full-face image作为输入的原因

论文作者提到，先前的Gaze Estimation算法大部分将目标的眼部图像作为输入，而近期的部分论文已经提出，面部除眼睛外的其他部分，同样包含有助于判断视线方向的信息。而神经网络方法拥有很强的信息提取的能力，因此，基于面部除眼睛的其他部分同样包含有助于判断视线方向的重要信息的假设，论文作者认为将完整的面部图像作为神经网络的输入，有助于提高视线检测算法的准确度。

加入空间权重的CNN方法

论文中阐述，加入空间权重主要有以下两个理由：

对于输入的完整面部图片，部分区域，如背景，对于解决Gaze问题没有帮助，应尽量减少其影响。
如前文所述，面部除眼睛外的其他区域隐藏着对于Gaze问题有辅助作用的重要信息。

因此，作者将通过激活图来学习空间权重的机制加入经典CNN架构，并取得了较好的结果。

基础CNN结构

对于经典CNN部分，作者采用了拥有5个卷积层、2个全连接层的AlexNet，并在全连接层后添加一个线性回归层以得到所需的2D或3D视线焦点坐标。这部分中作者使用了在LSVRC-2010 ImageNet上预训练好的参数，并通过MPIIGaze数据集对整个网络进行微调。

空间权重机制

在上述CNN的5个卷积层得到最终的特征图后，论文作者将特征图作为输入，添加三个卷积核为1x1的卷积层，使用ReLu作为激活函数，并最终得到一个13x13的热度图。之后，论文作者将热度图直接与之前卷积层的特征图逐元素相乘，作为全连接层的输入。

实验及分析

为检验这种方法的准确率，作者分别在MPIIGaze和EYEDIAP数据集上进行了2D、3D视线检测的与其他方法的对比。对比的方法有：只考虑单眼图片的方法（Visualizing and understanding
convolutional networks），上篇博客总结的方法（Appearancebased gaze estimation in the wild），iTracker，只考虑双眼部分的iTracker，修改为AlexNet的ITracker。

在与两个数据集，2D与3D两种问题的对比上，论文作者提出的空间权重CNN方法均取得了最好的表现。其中，2D问题上各方法在EYEDIAP数据集上的准确率均低于MPIIGaze数据集，论文作者认为可能是EYEDIAP数据集的低分辨率所致。

头部姿态、面部表现视线方向的关系

这一部分中，论文作者为探索不同因素对于视线方向判断的影响程度，将以下三种特殊情况进行对比：

1.直接将头部姿态作为视线检测结果

2.一个根据输入的头部姿态直接得到视线检测结果的线性回归模型

3.在遮住所有眼部的MPIIGaze数据及上训练所得的模型

而进行对比后，得到的准确率为：1<2<3。这一结果令人意外的表明，将完整面部图片作为输入甚至比头部姿态信息更有助于视线检测问题的解决。

（笔者的个人理解：理论上说完整的面部图片是包含头部姿态信息的，那么在模型提取信息的能力足够强的前提下，完整面部图片理应能提供更多头部姿态无法提供的信息，以帮助判断视线方向。）

不同脸部区域的重要性分析

既然面部其他区域有助于视线方向的判断，接下来论文作者尝试探索不同情况下面部的哪些区域有助于视线方向的检测。这一部分，作者通过研究使用64x64的遮罩遮住图片不同部分后分析准确率下降程度的方法得到热力图，来近似脸部不同区域的对于视线检测问题的重要程度。

光照

通过MPIIGaze数据集中，灰度平均值在水平方向上的不同密度为依据分类不同光照情况，论文作者发现，光照更强的一边，热力图中眼部与其他区域的连通性更强。同时在各种光照下，空间权重CNN方法的准确率均高于只考虑双眼图片的方法。

视线方向

通过实验发现，当目标的视线方线越平直时，眼部的热度越高。而视线方向越偏时，热度则明显的朝面部其他部分分散。

头部姿态

这部分使用了头部姿态分布更广的EYEDIAP数据集。实验发现，当头部姿态极端偏时，面部其他区域对视线检测的帮助尤为明显。此外，EYEDIAP数据集上的热度相比MPIIGaze，明显的朝面部周围分散，可能证明在低分辨率的情况下，使用完整面部图像有更大优势。

结论

采用完整面部图像作为输入，加入了空间权重的CNN方法对于极端头部姿势、视线方向、光照造成的极端头部姿态变化有更高的鲁棒性。

同时，实验的结果表明，采取完整面部图像作为输入的 appearance-based视线检测问题与其他相关CV问题（如面部特征识别、面部表情识别等）非常接近，在未来的基于学习的方法中，将这类问题综合考虑可能会取得更好的结果。