论文翻译
- 摘要
- 一、介绍
- Ⅱ、金字塔超分辨率(PSR)网络
- Ⅲ、THE PRIOR DISTRIBUTION LABEL SMOOTHING (PDLS) LOSS FUNCTION
- Ⅳ、数据集
- Ⅴ、实验和结果
- Ⅵ、总结
- 参考文献
摘要
人脸表情识别是提高自然人机交互的一项具有挑战性的任务。本文主要研究的是一张在野外(ITW)图像上的自动表情识别。ITW图像在姿态、方向和输入分辨率方面存在实际问题。在本研究中,我们提出了一种金字塔超分辨率(PSR)网络结构来解决ITW FER任务。我们还引入了一个先验分布标签平滑(pdls)损失函数,它应用关于FER任务中每个表达式的混淆的额外先验知识。在三个最流行的ITW FER数据集上的实验表明,我们的方法优于所有最先进的方法。
一、介绍
非语言交际在人际交际中起着至关重要的作用。这些非语言信号可以为口头交流添加线索、额外信息和意义。一些研究估计,大约60%到80%的交流是非语言[1]。这些信号包括面部表情、眼神接触、声调和音高、手势和身体距离,其中面部表情是最常用的分析输入。面部表情识别任务旨在从面部图像中识别情感。
在心理学和计算机视觉中,情感可以分为两种模型:离散型和维度连续型[2]-[4]。维度连续模型主要关注激醒和效价,效价的值在-1.0 ~ 1.0之间,而离散情绪理论主要区分快乐、悲伤、愤怒、中性、惊讶、厌恶、恐惧和蔑视等核心情绪。在我们的研究中,我们尝试离散表情识别。
Ekman和Friesen开发了一个面部动作编码系统(FACS)来分析人类的面部动作[5]。然而,这种方案需要训练有素的人员,而且非常耗时。近几年计算机视觉机器学习的成功能够帮助简化和自动化这些程序。我们的研究范围是自动面部表情识别,其中情绪表达是离散模型。
许多研究使用传统的图像处理和机器学习来完成FER任务。Shan等人使用了局部统计特征,称为局部二元模式(LBP),用于独立于人的面部表情识别[6]。Ma和Khorasani在二维离散余弦变换[7]上使用了单隐层前馈神经网络。Lien等将面部特征点跟踪、密集流跟踪和梯度分量检测相结合,检测FACS并计算情感[8]。在[9]中,Zhang等提取了尺度不变特征变换,并使用深度神经网络(DNN)作为分类器。Aleksic和Katsaggelos使用隐藏马尔科夫模型自动FER[10]。
近年来,深度学习(deep learning, DL)已经对图像、语音和自然语言处理等诸多领域产生了重要影响。在Liu等人提出的增强深度信念网络[14]中,多个深度信念网络从图像的小块中学习特征表示,并选择其中的一些进行增强。在[15]中,Liu等人集成了三个卷积神经网络(CNN)子网,并连接输出来预测最终结果。Huang[16]使用了一个自定义的残余块的ResNet架构和后期融合结合的结果,从VGG和ResNet模型。需要看一下参考文献及代码
Zeng等提取了图像梯度方向直方图,通过深度稀疏自编码器将其分类[17]。Tozadore等人将情绪分成几个组,以帮助CNN更准确地分类[18]。
尽管实验室数据集取得了这些成功,但近年来野外数据集(ITW)的崛起给研究人员带来了新的挑战。在受控条件下采集的实验室数据集,数据干净、准确、均匀。相比之下,ITW数据集是有噪声的、不准确的和变化的。我们为FER任务概述了以下关于ITW数据集的两个观察结果。
观察1:ITW数据集图像大小不同。实验室数据集图像的大小是可控的,而且几乎是恒定的,而ITW数据集图像的大小从太小到太大不等。图1显示了RAF-DB[11]、[12]数据集(图1a)和AffectNet[13]数据集(图1b)的图像大小分布。这两个选定的数据集是FER任务中最流行的ITW数据集。由于宽度和长度的差异,我们认为两者的平均值就是图像的大小。
图1。The image size distribution of the RAF-DB [11], [12] and AffectNet [13] datasets. |
---|
在这两个数据集中,小图像出现的频率更高,如图1所示。RAF-DB[11]、[12]和AffectNet[13]数据集的图像大小分布。随尺寸增大而减小。RAF-DB中图像大小的均值和方差分别为193和144,比较大。AffectNet数据集的图像尺寸更大,从130像素到2000像素以上。在图中,我们将所有大于2000像素的图像四舍五入到1000像素的固定值。与RAD-DB数据集类似,图像的数量随着图像大小的增加而减少。第三个最受欢迎的ITW数据集是FER2013[20]扩展的FER+数据集[19]。它还面临着不同图像大小的问题。 不幸的是,当FER数据的作者发表时,原始图像大小信息被忽略了。这一领域的研究大多没有考虑图像大小的问题。他们只是简单地将所有图像的大小调整到相同的大小,例如128 128或224 224。第一个原因是DL框架本身,因为在批处理模式下,每个批处理必须具有相同的输入形状。同时实现不同的输入大小需要更多的代价,而且复杂且计算效率低下。虽然CNN架构对于许多图像分类任务都是成功的,但它是基于这样一个假设,即尽管图像的大小改变了,但网络可以学习自己进行区分。最近邻插值、双线性和双三次算法是常用的缩放图像大小的技术。
观察2:cnn通常对输入图像大小更敏化。虽然CNN在很多与图像分类和分割相关的任务中都是非常成功的,但是这种架构存在一些缺点。CNN的一个缺点是对输入图像的大小很敏感。缩放是一种试图解决这个问题的数据增强技术。在大多数实验中选择的缩放尺度都在0.9到1.2之间,因为超出这个范围的值会使网络退化和损坏。有了全局池化,CNN网络可以支持不同的输入大小,并且用大小增量技术来更快地训练网络 ,使覆盖更容易。尽管这个过程提供了改进,网络仍然对输入大小敏感。因此,用这种输入尺寸训练的网络在处理相同但规模不同的图像时效果很差。图2显示了用VGG16训练RAF-DB和FER+ 在不同的尺度时训练集和验证集损失值。50 50 ,100 100,150 150,再回到50 50 的RAF-DB和48 48个,96 96,192 192,和再回到48 48 FER+的每20epoch的序列。
图2。当RAF-DB和FERC的输入大小改变时,训练和验证过程中的损失值(VGG16体系结构[22])。 |
---|
我们使用来自ImageNet[21]的权重迁移,然后,我们冻结整个CNN架构,除了全连接层。冻结步骤在最小输入图像大小的20个epoch内进行训练。在图像尺寸变化点(epoch 41, 61, 81),训练和验证的损失都显著增加。在epoch 81,虽然输入大小恢复到之前用于训练网络的大小48 48,但由于卷积的特性,损失值仍然增加。卷积层使用内核(大小为3×3、5×5或类似的)来扫描前一层中的“像素”。然后,即使图像是相同的,但在不同的尺度,下一个卷积层学习非常不同的特征;因此,增加内核大小在这里没有帮助。
目前,超分辨率(SR)步骤是在预处理输入,它可以是DL体系结构的一部分。SR方法可能比最近邻插值、双线性和双三次插值等旧算法更好地解决小图像大小的问题。SR任务用于从低分辨率的图像中生成较大的图像,同时试图填补丢失的像素并避免像素变得模糊。从一个低分辨率的图像,例如大小为W H, SR任务被用来制作更大的图像kW kH,其中k>= 2,目的是使新图像尽可能清晰。虽然将图像从高分辨率降至低分辨率是一项简单的任务,但反向却并非易事。由于低分辨率而丢失的像素需要恢复。最近的一些研究集中在这个问题上。Dong等人引入了超分辨率卷积神经网络(SRCNN),这是一种深度CNN模型,在低分辨率和高分辨率的特征图上工作,最终生成高分辨率图像[23]。SRCNN是轻量级的,并优于双三次插值。非常深超分辨率(VDSR)具有与SRCNN相似的结构,但更深入[24]。Shi等人在[25]中制作了优于SRCNN的高效亚像素卷积神经网络(ESPCN)。ESPCN通过处理低分辨率的特征映射和上采样到最终图像来改进SRCNN。Ledig等人使用resblock在[26]中构建SRResNet。Lim等人提出了enhanced deep superresolution network (EDSR)[27]。EDSR是SRResNet的改进版本,去掉了所有批处理归一化层,在提高效率的同时减少了40%的计算量。他们还从基础块设计了一个多尺度网络,取得了良好的效果。Hu等人发布了一种级联多尺度交叉网络,该网络包含一系列级联子网络[28]。近年来,SR的网络不断深化,精度也有了较大的提高。SRCNN是轻量级的,但精度较低,而EDSR需要更多的计算,但可以产生更好的结果。
我们的研究有两个突出贡献。首先,我们提出了一种金字塔超分辨率(PSR)网络结构来处理不同图像大小的ITW FER任务。我们的方法旨在在多个尺度上查看图像,并使用SR进行缩放。在真实世界的FER数据集中有许多小尺寸的图像问题,SR提高了网络性能。在多个尺度上查看图像也有助于网络学习,不仅在小 的局部,而且在输入的全局视图。我们还讨论了损失函数,并将其应用到混乱标记分布已知并可使用的FER任务中。
本文的其余部分组织如下。我们在第二节解释了我们所提出的方法,并在第三节介绍了先验分布标签平滑(PDLS)损失函数。数据集信息在第四节给出。第五节描述了实验结果和讨论。最后,我们在第六部分总结了我们的研究。
Ⅱ、金字塔超分辨率(PSR)网络
我们使用金字塔结构来处理各种图像大小的问题,这被称为PSR网络。图3显示了整体PSR网络架构。
图3。整体网络架构。 |
---|
在我们的方法中有六个块,包括空间变换网络(STN)、缩放、低级特征提取器、高级特征提取器、全连接和最终的连接块。STN是二维图像仿射变换的模拟器,用于脸部对齐。缩放块是主要的块,是我们方法的基本思想。关于这个区块的细节将在下一小节中解释。缩放块之后,有几个内部输出,每个输出都是原始输入的一个图像,但在不同的尺度,因此有不同的大小。低特征提取器和高特征提取器是大部分CNN常用的两个部分。所述全连接块包括若干全连接层和漏接层。最后,我们结合所有分支输出与后期融合技术。
A、STN块
STN由Jaderberg et al.[29]和Dai et al.[30]引入。STN的主要思想是通过学习transformer来对齐输入。该模块由三部分组成:定位网、网格发生器和采样器[29]。定位网络有几个卷积层,最后,一个完全连接到输出θ的层,其中θ是一个矩阵大小为2 × 3,表示二维图像中的仿射变换。网格生成器然后接受θ并生成网格,最后,采样器用这个网格并生成输出图像。输出图像来自输入图像,带有旋转、缩放和变换操作符。该块的输入和输出是相同大小和相同通道数的图像。
与实验室里的图像不同,ITW图像与头部姿态方向有很大的不同。我们添加STN块来帮助网络学习对齐人脸,使其更容易识别。
我们的实现细节遵循之前发表的论文[29]。表1显示了该块的内部层的详细信息。
对于卷积层,参数为输入通道、输出通道、核大小和步幅。maxpool2d层需要内核大小和步长。对于线性层,只需要两个参数:输入节点数和输出节点数。定位完成后,将特征图扁平化,并通过全连接层。我们的算法根据输入的大小动态地计算特征地图的大小。因此,该块是自适应的不同大小的输入图像
B、缩放块
缩放块是我们架构中的主要块。这个块的主要思想是以不同的尺度从小到大查看输入图像。超分辨率是用来提高图像尺寸的。在许多cnn中,为了保证存储和计算的效率,输入图像保持相同的大小。为了利用输入图像的最佳信息,它们以可达到的最大尺寸传递到网络。输入大小可能受到计算限制和基于每个数据集的限制。当通过相同大小的图像时,就像第一次观察到的那样,它们中的许多是低分辨率的,并使用一些传统的算法进行放大。然而,我们的方法先将它们缩小,然后再使用SR技术将它们放大。这一区块是为了在低分辨率图像中查看整体上下文,同时考虑高分辨率图像的原始特征。
在伸缩块中,网络分支到三个或更多的子网。所有的子网络使用相同的输入图像,但规模不同。最新分支接收到的原始输入图像具有最高的网络分辨率。由于计算量的限制,在图像分类领域的研究中,大多数都是使用100到最多312之间的输入图像。对于更大的输入尺寸,更高的分辨率并不会改善性能。对于批处理模式,所有图像在传递到网络之前都被调整为中心大小。然后将较大的图像缩小,较小的图像需要放大。我们称原始输入尺寸为W h。这个尺度输入的过程是传统的算法,如最近邻插值,双线性,双三次。传统算法从小尺寸图像到大尺寸图像的缩放过程复杂且不准确。我们的方法倾向于克服这个问题。第一个分支应用于最低分辨率的图像,该图像是由simple算子使用平均池化实现的。我们声明step和kstep值作为两个邻居之间的步长尺度值。根据DL的限制,step被设置为2。可以使用较大的kstep,但由于计算的限制,我们将kstep限制为1或2。第一个分支的图像大小为
在第一个和最后一个分支之间,有SR分支的kstep,每个分支都是一个SR块,其scale大小为2;4;8;:::从最低分辨率的图像从第一个分支。第i个SR的大小由公式1给出。
在k =1情况下,缩放块中只有一个SR分支,输出大小与原始输入大小相同。在k =2中,有两个SR分支,大小分别为[W/2, H/2]和[W, H]。我们的设置总是确保最后的SR部分具有与原始输入大小相同的大小。对于SR任务,我们使用了Lim等人引入的EDSR架构。
通过学习如何重新采样图像大小,我们假设这个块可以为这个特定的任务添加有用的信息,从而提高预测模型的准确性。
C、LOW AND HIGH-LEVEL FEATURE EXTRACTOR
通常,低级和高级特征提取器组合在一个基本网络架构中。我们选择VGG16作为基础网络[22],是因为这个网络仍然是最近许多FER任务的基础网络[31]-[33]。从基本网络,VGG16,我们分为两部分的两级输入。低级特征提取器接收图像作为输入并生成与数据相对应的特征映射。这个块工作在低层次的特征,例如,边缘,角落,等等。高级特征提取器从低级部分接收特征映射,并生成输入的更深的高级特征。
虽然输入按此顺序通过两个提取器传递,但我们将它们分隔为两个,以便在分支之间共享。在第二次观察中,我们知道cnn对输入大小非常敏感,在这里,每个分支都有不同的输入大小。每个分支的低级特征非常不同,并且不能共享,因为共享低级层会损害网络。高级特性块在另一个环境中。在这个级别上,需要学习高级特征,并且较少依赖于输入的大小。这个块的权重可以在分支之间共享。共享权值的作用方式也类似于多任务学习,其中的组合有助于每个任务获得更好的结果。
切割点的位置表示pos,这是卷积层在基础网络中的位置,我们将这两部分分开。pos值越低,表示所有分支共享内部大部分层的权值,pos值越高,则表示所有分支的权值越低。从第二个观察来看,我们假设低pos值会使网络退化。由于基网为VGG16,有12个卷积层,所以切割位置pos应该在0-12,即对应卷积层的位置。在实验中,我们分析了切割点(pos值)的影响。
D. FULLY CONNECTED BLOCK AND CONCATENATION BLOCK
全连接块包括两个全连接层(线性、FC)和几个附加层。然后,高级块的输出特性通过该块获得表示每个标签得分的向量。根据实验,我们使用7或8个情绪,然后输出向量大小分别设置为7或8。最后一个feature map我们也使用BatchNorm1d,第一层和第二层FC层分别使用p值0.25和0.5的两个dropout层。在第一层FC层之后应用了ReLU激活函数。
与高级特征提取块类似,全连接块也在分支间共享。
采用加权后融合策略对所有分支进行融合。根据各支路对整个网络最终得分的贡献,确定各支路的权重
Ⅲ、THE PRIOR DISTRIBUTION LABEL SMOOTHING (PDLS) LOSS FUNCTION
对于基本情感来说,这是一个分类问题,每个输入的图像都被分成七到八个类别中的一个。Softmax交叉熵是分类任务中最常用的损失函数。交叉熵(CE)损失函数如式2所示。
在现实世界中,很难得到每个样本的标签的真实分布;因此,在大多数情况下都使用了all in one假设。在理想情况下,样本属于且仅属于一类;因此,one-hot向量被广泛应用于分类任务的标注,使等式2成为log(σ(zk))的简单版本,其中,除正确的标记k (tk =1)外,所有的c∈ C都有tc = 0。然后,除标签k外的所有部分都被省略。
标签平滑(LS)损失函数在其他研究[34]、[35]和[36]中已经被引入。LS的公式如式3所示。
这里的主要思想是所有错误标签的贡献。参数α设置在0.9左右,意味着对其他标签的贡献很小;例如,对于FER任务,|C|=8,那么每个任务的权重是0.1/8约等于0.0125,对于正确的标签是0.9125。尽管不正确标签的权重较小,LS已经成功地应用于许多分类任务中。LS与使用one-hot的CE相比的优点是,模型预测的所有标签分数都是激活的。然后,反向传播过程不仅可以学习如何增加正确标签的分数,也可以学习如何减少不正确标签的分数。
在LS损失函数中,除正确标签外的所有标签都是相等的,即它们的作用很小,并且都是相等的。LS可以广泛地用于许多没有分布信息的任务中。然而,在像FER这样的许多任务中,对于特定的正确标签,对其他类的混淆是不一致的。FER任务有两个优点:标签的数量很少,只有7或8个,更重要的是,我们知道对于特定的标签,某些特定类的混淆性比其他类要高。例如,正确的恐惧标签很可能会被混淆为惊讶而不是厌恶。另一个例子是厌恶的面部表情,它很容易被误认为是中性的,或者是悲伤而不是愤怒或恐惧。如果我们有这个先验知识,平滑部分不应该是均匀分布的。因此,我们提出了一种附加标签混淆先验知识的LS扩展版本,称为PDLS。PDLS损失函数由one-hot分布和先验分布两部分给出,如式4所示
方程4中的所有符号与方程2和3中的符号相似。dkc值是这个公式中的新操作数,它代替了LS损失函数中的均匀分布1/|C|。d矩阵具有下列性质
最重要的部分是如何计算dkc。利用Barsoum等人的[19],FER+的作者在校正FER2013数据集[20]的标签时,还提供了每个样本的标签分布信息。在FERC中,每个样本由10个人进行标记,他们需要将每个图像划分为8个基本类,外加两个额外类,未知类和非面孔类。虽然每个样本的正确标签分布很难获得,但我们假设FER+的制作方法是对真实分布的一个很好的近似。为每个样本 s∈S,S是FER+数据集,我们有近似分布ads。因为省略了未知和非人脸图像,我们只使用信息八种基本情绪,用E表示。然后ads是一个向量表示的R8, 8是|E|的size,ads求和等于 1。公式5是计算每个ground truth情绪 k的平均分布。在这次计算中,我们只使用FER+中的训练集。
FER任务的最终先验分配dki见表2。
表2。在FER任务中情绪的先验分布。 |
---|
表中每一行为dk, k为8个情绪标签中的1个。每一列是混淆标签,有八种情绪标签。d_neutral;sadness=0.114表示当图像设置为中性时,有11.4%的几率会混淆为悲伤。主对角线上的数字总是高于0.5,这代表了它自己的情绪分布。快乐很清晰,也很容易察觉。快乐;快乐=0.918,而恐惧和厌恶则很难察觉,也很容易被混淆。
Ⅳ、数据集
有三种流行的ITW数据集用于FER任务,包括FER+[19], RAF-DB[11],[12]和AffectNet[13]数据集。在本研究中,我们对它们进行了实验。分类的八种离散情绪是中性,快乐,惊讶,悲伤,愤怒,厌恶,恐惧和蔑视。之前的一些数据集和研究使用了其中的7种,因为他们排除了蔑视,因为在现实世界中,蔑视是困难和罕见的。下面给出了每个数据集的详细信息
FER+
FER+数据集【19】是其中第一个ITW数据集。最初的版本是Goodfellow等人的FER2013【20】,为ICML 2013讲习班发布的表征学习挑战。但由于FER2013数据集的标注精度不可靠,Barsoum等人重新分配了标签。10个人为FER2013数据集中的每张图片手动分配基本情绪。如果原始图像被分类为未知或非人脸,则将其子集排除在外。最后的情绪标签是根据十个人的投票来分配的。为每种情绪投票的人数被给出,然后用来计算情绪在该图像上的近似分布。
数据集包括所有的图像,每一个都有一个人的脸对齐。数据集图像是通过查询多个相关的表达式关键字从互联网上获取的。在真实的环境中,人脸的种类很多,他们的姿态和旋转使他们的识别更具挑战性。图像对齐并居中,它们的缩放稍有不同。所有的图像都是低分辨率的,灰度,大小为48 48像素。每个图像对应的标签也给出了。八种基本情绪在这个数据集中被使用。
表3和图4显示了FER+数据集上train、test和validation的分布情况。
表3。FER+、RAF-DB和AffectNet数据集的训练/测试/验证子集中的图像数量。 |
---|
图4。FER+数据分布的训练/测试/验证 |
---|
中性情绪的图像数量最多,训练集为9030张,测试组为1102张。厌恶情绪的图像数量最少,训练集只有107张,测试集只有15张。与“鄙视”情绪相关的图片数量与厌恶相当:训练集只有115张,测试集只有13张。与其他五种情绪相比,厌恶、蔑视和恐惧的图像很少。这在自然交流中是正常的,人们通常处于中立和快乐的状态,很少经历厌恶、蔑视或恐惧。图4显示在FER+上训练、测试和验证的情绪分布是相似的。
RAF-DB数据集
李杉、邓卫红和杜俊平提供了用于情感识别【11】,【12】的真实世界情感面孔数据库(RAF-DB)。该数据集包含从互联网上下载的约3万张图片。大约40名训练有素的注释员仔细地给图片贴上标签。数据集有两部分:单标签子集(基本情绪)和双标签子集(复合情绪)。我们使用了包含7类基本情绪的单标签子集。这个子集在训练集中有12271个样本,在测试集中有3068个样本,每个情绪的样本数量见表3。值得注意的是,RAF-DB数据集不包括藐视表情。图1显示RAF-DB中的图像大小从小到大不等,这使得DL模型难以处理。
AffectNet数据集
AffectNet【13】是FER任务的最大数据集。该数据集包含100多万张使用相关表达式关键字从互联网上查询的图像。大约有45万幅由受过训练的人手工注释的图像。它还包括训练、验证和测试集。由于测试集尚未发表,所以之前的研究大多使用验证集作为测试集[13],[37]-[40]。因为蔑视情绪在自然界中很少见,所以有些研究[40]只使用了七种情绪,而另一些研究[13],[38],[39]则分析了所有八种情绪。另一项研究同时使用了8个和7个情绪[37]。因此,为了将我们的研究结果与之前的研究结果进行比较,我们分别进行了8个和7个类别的实验。
表3显示了在FER+、RAF-DB和AffectNet数据集上每个子集训练、验证和测试中每个情感类的样本数量。他们用于标签的名称有一点不同,但可以作为“情绪”列映射到八种基本情绪。FER+有三个独立的子集用于训练、验证和测试,而另外两个只有两个子集。由于AffectNet数据集尚未公布测试子集,因此本数据集中的大部分研究都将验证子集作为测试子集,训练过程中的验证子集应该从训练子集中随机选取。与RAF-DB类似,训练子集是随机分离的,然后应用于得到训练子集和验证子集。只有AffectNet显示了平衡的验证(作为测试),而FER+和RAF-DB是高度不平衡的。FER+和AffectNet数据集都有8种情绪标签,而RAF-DB数据集只有7种,没有轻蔑情绪表达的情绪类别。
图5给出了三个数据集中每个类的一些示例图像。
图5。(a) FERC, (b) RAF-DB和 © AffectNet数据集的样本图像。 |
---|
在这个图中,每一列代表一种情绪表达。前两行图像(图5a)来自FER+数据集,图5b来自RAF-DB,其余的(图5c)来自AffectNet。RAF-DB的最后一列是空的,因为RAF-DB数据集有7个没有藐视的情绪。
Ⅴ、实验和结果
本节报告我们的实验和结果。V-A给出了实验装置。V-B显示结果。最后,V-C小节提出了关于我们的方法和局限性的讨论。
A.实验设置
所有实验均使用Fastai[41]和PyTorch[42]。这些工具箱使DL实验更容易,有许多内置的类、函数,以及可以重用的预先训练过的模型。
在DL中,网络初始化对训练过程有重要影响。通常,权值一开始是随机的。拥有一个好的初始化策略可以帮助网络更好、更流畅地学习。在我们的例子中,我们仔细地初始化了网络权值。STN块被设置为相同的变换。SR层是从先前发布的预训练模型[27]初始化的。使用不同尺度的输入图像对基础网络VGG16进行训练。然后,模型权重被保存并重新加载到我们的架构中。仔细的初始化步骤有几个优点。它更容易训练网络,使网络覆盖更快,使网络更稳定,导致更少的变异。
我们使用了具有自适应学习速率的Adam优化算法[43],使用了Smith[44]提出的单周期策略。对于网络的一些后续层,学习率设置为1e-3,对于STN块,学习率设置为1e-4。变换后的STN学习速率较低,目的是保持这个块不变。
验证集用于优化超参数,然后收集最佳模型。我们所有实验的超参数包括学习速率和网络获得最佳结果的epoch数。这些模型被用来评估测试集。我们在测试步骤上应用了Test Time Augmentation。从每张图像中生成8张随机旋转、缩放的图像,然后通过模型得到原始分数进行预测。最终的原始分数是他们输出的平均值。
对于基本的情绪识别,用几个指标来评估结果。第一个和最广泛使用的度量是准确率,或加权精度(WA):这是正确答案的数量除以测试样本的总数。但是,当每个类别的样本数量高度不平衡时,WA的表现可能会很差,特别是在表情识别任务上,因为现实世界中的情绪通常是不平衡的。一些情绪如中性、快乐或悲伤比厌恶、恐惧或蔑视更常见。在这种情况下,应考虑未加权精度(UA)作为系统的额外评估。UA度量是WA的无侧重版本。UA是通过每个类的准确率的平均值来计算的。为了与其他研究进行比较,本实验采用了WA和UA两种方法。
所有实验运行在Ubuntu 18.04, 32G RAM, GeForce RTX 2080 Ti GPU和11G GPU RAM。
B、实验结果
我们报告了RAF-DB、FER+和AffectNet数据集的实验结果。
1)RAF-DB DATASET
表4给出了RAF-DB数据集的结果。
表4。RAF-DB精度比较(%) |
---|
在以往的研究中,[38]、[39]、[45]的方法报告WA度量,其他[46]、[47]报告UA度量。我们在WA和UA指标上报告并与之前的发现进行比较。我们的方法比最近在这两个指标上的研究产生了更好的结果。对于WA,我们得到88.98%,与Wang et al.[39]相比,其绝对值提高了2%以上,相对提高了2.4%。在UA指标中,我们的方法在绝对值上比[46]好4.05%,相对于[46]好5.28%。
图6显示了RAF-DB的混淆矩阵。
结果表明,该模型对快乐和中立给出了很好的准确性,但对厌恶和恐惧的结果分别只有54%和59%。17%的人认为厌恶的图像是中性的,16%的人认为恐惧的图像是惊奇的。
2) FER+数据集
表5为FERC测试集上的实验结果,
表5所示。FERC精度比较(%)。 |
---|
PSR模型的准确率最高,达到89.75%。与之前Albanie等人[48]文献中最好的结果相比,我们的方法提高了0.65%。
我们提出的架构的平均精度为69.54%,F1评分(macro)为74.88%。厌恶和恐惧的低准确率使得F1得分和平均准确率远低于平均水平。未来的研究应着眼于增加厌恶和恐惧的样本数量,以提高这两种表达的准确性
图6c显示了PSR架构测试集上的混淆矩阵:快乐的准确率最高为96%,其次是中性、惊讶和愤怒。四种表达的准确率均在90%以上。蔑视的准确率最低,23%。由于缺乏轻蔑的图像,该模型无法学习区分中性、愤怒或悲伤。有些情绪很有可能被错误分类:37%的人认为恐惧是惊讶,33%的人认为厌恶是愤怒,22%的人认为悲伤是中性的。这种高度的困惑在现实世界中是很典型的,因为即使对人类来说,也很难区分这些情绪。
3) AffectNet数据集
我们比较了8个和7个类在AffectNet数据集。表6显示了分类精度(WA)的结果。
表6所示。AffectNet准确度比较(%)。 |
---|
在八种情绪的分类中,我们的模型存档的准确性为60.68%,优于目前最先进的Georgescu等人[37]所实现的59.58%。在七个情绪任务中,我们的模型达到的准确性为63.77%,相对于目前最高的63.31%[37]略有提高。图6b和图6d分别给出了七类任务和八类任务中影响网的混淆矩阵。在这两种情况下,快乐表情的检测率最高,其次是恐惧情绪。在这两种情况下,惊讶、愤怒和厌恶的表现是相似的。在8个表达的任务中,蔑视的表现最低,仅为49%。
图7显示了根据原始图像大小在基线网络和PSR架构上的累积精度。
图7。使用VGG16(基线)和PSR架构的RAF-DB数据集测试集上按大小的累积精度 |
---|
PSR使用表6中的三个分支运行[1,2,1]和切点在第6个卷积层,原始输入尺寸为100像素。图像大小从23像素到1200像素左右。因为大图像被调整为100像素的固定大小,所以我们只考虑那些小于100像素的图像,以查看我们的方法是如何受到影响的。我们忽略了前20点,因为它们在计算精度时是不稳定的。从图中可以看出,当图像尺寸小于40像素时,基线和PSR都是不稳定的。但在40像素后,PSR架构得到了改进,比基线网络工作得更好。PSR在数据集的末尾保持了这一趋势,因为在我们的方法中,我们为三个分支之一的小图像添加了两倍大小的超分辨率模块,而另一个一半大小的分支100/2=50提高了识别精度。
图8显示了RAF-DB数据集测试集上PSR和VGG16在大小上的精度差异。
图8。在测试集上的精度大小的差异在PSR和基线之间的RAF-DB数据集。 |
---|
蓝色的点是原始值,黄色的点是平滑的版本。精度上的差异代表了在基线网络上PSR改进的速度。可以看出,在原始图像大小为40 ~ 55像素左右时,改进速度最快;当尺寸在55像素到75像素之间时,它会变慢,在75-85像素之间会变低。在85像素后,改善仍在继续,但速度较慢。值得注意的是,在RAF-DB实验中,原始输入大小是100像素分辨率,50像素是输入大小的一半。
4)每个BLOCK的有效性
表7显示了RAF-DB数据集上PSR的一些变化之间的比较。
表7所示。分析每个区块对RAF-DB的效果(%)。 |
---|
第二行表示了没有STN块的PSR结果,这意味着只有金字塔结构的基线网络有三个分支(kstep = 2)。很明显,在WA和UA度量,这比VGG16网络体系结构得到更好的结果。这两种指标的改进都很显著,WA为2.73%,UA为3.30%。这意味着我们的金字塔SR有一个重要的作用。当加入STN块构建完整的PSR体系结构时,在WA和WA指标上分别得到了0.36%和0.81%的改进。我们分析了超分辨率重建模块的有效性,将没有STN块的PSR分解为三个独立的分支,以查看每个分支对最终融合的贡献。图9显示了每个分离分支的准确性,以及它们在PSR架构上的融合。
图9。在RAF-DB测试集中没有STN块的情况下,通过原始图像大小对PSR每个分支的准确性。 |
---|
如预期的那样,小尺寸分支的精度最低,三个分支结合的融合精度最高。SR分支和原始输入大小使用相同的scale输入大小,一个是来自于一半大小的SR,另一个是原始输入大小。尽管使用了相同的scale size, SR分支的性能还是比原来的size分支好。对于小图像,SR与原始输入尺寸分支的差异较大,且随尺寸的增大而减小。实验结果再次证实了在原始图像较小的情况下,SR分支有助于网络性能的提高。
图10显示了VGG16卷积层切割点pos在RAF-DB数据集上的性能。
图10。不同切割点的性能箱线图(精度) |
---|
网络在pos =0处表现出最低的性能,说明所有的卷积层都是共享的。精度随着pos值的增加而增加,但这种改进在pos d5的特定切割点之后停止。第五层切割后,精度在特定值附近保持稳定。这个结果支持了第二个观察结果,即CNN被输入大小敏感化。共享一些早期的卷积层会导致网络崩溃。另一方面,更深层的层可以共享,因为前一层的卷积层学习底层的特性,而后一层的卷积层负责更抽象的高级特性。
5)网络对不同输入图像大小的灵敏度
图11为在RAF-DB数据集上改变输入图像大小时PSR和VGG16的灵敏度对比。
图11。在RAF-DB的训练过程中,改变序列中初始输入大小50、100、150,再回到50像素时,PSR和基线的训练损失的可视化。 |
---|
训练过程与图2a类似,但省略了前20个冻结步骤。转折点在第20、40和60时代。该图显示,PSR的敏感性低于基线。改变点之后,PSR体系结构的损失值略有增加。但是VGG16的损失值有很大的增加。结果证实,尽管cnn通常对输入图像敏感,但我们的方法对原始图像大小不同的ITW FER任务具有鲁棒性。
6) THE COMPARISON OF THE THREE DIFFERENT LOSS
表8比较了RAF-DB数据集上的CE、LS和PDLS三种不同的丢失函数。
对于每种类型的损失函数,我们在基线架构VGG16和我们提出的网络架构上进行实验。在VGG16和PSR网络结构的两种情况下,CE损耗函数的精度最低。对于基线网络,LS略好于PDLS,相差0.12%。然而,对于PSR架构,PDLS略好于LS,量为0.42%。
图12显示了来自RAF-DB数据集的一些样本图像,PSR预测了正确的情绪,而基线网络给出了不正确的情绪。
图12。在RAF-DB数据集中采样低分辨率的图像,其中PSR识别优于基线网络。 |
---|
这三张图片都是低分辨率的,大小在45到56像素之间。
C、讨论
实验表明,我们的方法在三个数据集上都有显著的改进。与基础网络VGG16相比,我们的金字塔结构与附加的SR块和后期融合大大提高了性能。在RAF-DB数据集上,与最先进的结果相比,我们的精度在WA度量上提高了约2%,在UA度量上提高了4.05%。RAF-DB数据集在精度方面得到了最实质性的提高。在AffectNet数据集上,PSR比以往最好的研究分别提高了1.01%和0.46%的精度。虽然给定的输入是在一个小的规模(48 48)作为FERC数据集,我们的PSR模型产生了更好的结果。在三个数据集中,RAF-DB的改进效果最好,因为RAF-DB的图像大小从23到100不等。AffectNet数据集的改进较少。对于FER+ 数据集,该数据集包括图像的调整大小和裁剪版本;使用原始版本,如果它是可用的,PSR将提供更好的结果。值得注意的是,与表4、表5和表6中第二好的算法相比,不同的精度差异可能是由于每个表都有不同的算法集。总的来说,带有SR的金字塔对ITW数据集上的FER任务有显著的改进。SR分支有助于提高低分辨率图像的网络性能,与其他分支相结合可以提高整个网络的性能。STN块也有一些改进。
在第二次观察中,DL网络是根据图像输入大小进行敏化的,每个分支的低级块是非常不同的。图10中显示的结果支持我们的假设。当pos值降低时,表示共享的层更多,包括一些低级的卷积层,网络退化。pos值越高,说明底层特征的共享越少,网络表现出更好的结果。由于在实际应用中需要权衡性能和计算成本,图10中的结果对于选择切割点很有用。
表8的实验结果再次证实了LS损失函数优于CE,正如之前许多研究[34][36]一样。LS和PDLS都比CE有更好的性能,在PSR体系结构中,PDLS有显著的提升。在FER任务中,PDLS损失函数比原来的LS函数有了一些改进,但具体情况有所不同,这取决于网络结构。在VGG16的情况下,实验表明PDLS和LS几乎相等,这表明未来的改进是有必要的。PSR模型的结果表明,无论是LS还是PDLS,都比CE更有利于FER任务中的损失函数。
尽管我们的研究取得了显著的进步,但仍有一些局限性需要进一步的研究。第一步是从最低分辨率开始放大的步骤。金字塔结构已经在几个尺度上查看了输入,但是一个步骤是一个大于1的整数,2是一个起始值。但是,双尺度仍然有巨大的价值。虽然尺度1.2对于大多数增强技术来说是一个很好的点,而1/1.2(0:83)在相反的情况下,我们建议尺度步骤应该是1.2的平方 =1:44,或近似为1.5。对于传统算法,十进制缩放值是可能的,但它不能用于DL方法。第二个弱点是基线网络架构。虽然有一些比VGG16可靠的网络架构被报道,如ResNet[49]和SENet[50],但我们选择了VGG16作为基础网络。虽然我们的方法是通用的,但是我们可以应用多种CNN,并且需要对每个基网络重新实现。我们的方法不是一个简单的模块,因此必须采取额外的努力来逐个实现。另一种架构的创新留给了未来的工作。
Ⅵ、总结
在本研究中,我们解决了ITW数据集的FER任务中不同图像大小的问题,其中原始输入图像大小是不同的。尽管cnn可以在很小的旋转和尺度下对图像进行工作,但当尺度很大时,它们就毫无价值了。本研究的主要贡献是发展了具有多个分支的金字塔网络结构,每个分支都在一个输入尺度的水平上工作。提出的网络是基于VGG16模型,但它可以扩展到另一个基线网络架构。在PSR体系结构中,将SR方法应用于低分辨率输入。在三个ITW FER数据集上的实验表明,我们提出的方法优于所有目前最先进的方法。
参考文献
[1] A. Mehr*, Nonverbal Communication. New Brunswick, NJ, USA:
Aldine Transaction, 1972.
[2] P. Ekman, ‘‘Are there basic emotions?’’ Psychol. Rev., vol. 99, no. 3,
pp. 550–553, 1992.
[3] P. Ekman, ‘‘Basic emotions.,’’ in Handbook Cognition Emotion. New York,
NY, USA: Wiley, 1999, pp. 45–60.
[4] J. A. Russell, ‘‘A circumplex model of affect.,’’ J. Personality Social
Psychol., vol. 39, no. 6, pp. 1161–1178, 1980.
[5] P. Ekman and W. Friesen, Facial Action Coding System, vol. 1.
Mountain View, CA, USA: Consulting Psychologists Press, 1978.
[6] C. Shan, S. Gong, and P. W. McOwan, ‘‘Facial expression recognition
based on local binary patterns: A comprehensive study,’’ Image Vis. Comput., vol. 27, no. 6, pp. 803–816, May 2009.
[7] L. Ma and K. Khorasani, ‘‘Facial expression recognition using constructive feedforward neural networks,’’ IEEE Trans. Syst., Man,
Cybern. B. Cybern., vol. 34, no. 3, pp. 1588–1595, Jun. 2004.
[8] J. J. Lien, T. Kanade, J. F. Cohn, and C.-C. Li, ‘‘Automated facial expression recognition based on FACS action units,’’ in Proc. 3rd IEEE Int. Conf.
Autom. Face Gesture Recognit., 1998, pp. 390–395.
[9] T. Zhang, W. Zheng, Z. Cui, Y. Zong, J. Yan, and K. Yan, ‘‘A deep neural
network-driven feature learning method for multi-view facial expression
recognition,’’ IEEE Trans. Multimedia, vol. 18, no. 12, pp. 2528–2536,
Dec. 2016.
[10] P. S. Aleksic and A. K. Katsaggelos, ‘‘Automatic facial expression recognition using facial animation parameters and multistream HMMs,’’ IEEE
Trans. Inf. Forensics Security, vol. 1, no. 1, pp. 3–11, Mar. 2006.
[11] S. Li and W. Deng, ‘‘Reliable crowdsourcing and deep locality-preserving
learning for unconstrained facial expression recognition,’’ IEEE Trans.
Image Process., vol. 28, no. 1, pp. 356–370, Jan. 2019.
[12] S. Li, W. Deng, and J. P. Du, ‘‘Reliable crowdsourcing and deep localitypreserving learning for expression recognition in the wild,’’ in Proc. 30th
IEEE Conf. Comput. Vis. Pattern Recognit., Oct. 2017, pp. 2584–2593.
[13] A. Mollahosseini, B. Hasani, and M. H. Mahoor, ‘‘AffectNet: A database
for facial expression, valence, and arousal computing in the wild,’’ IEEE
Trans. Affect. Comput., vol. 10, no. 1, pp. 18–31, Jan. 2019.
[14] P. Liu, S. Han, Z. Meng, and Y. Tong, ‘‘Facial expression recognition via
a boosted deep belief network,’’ in Proc. IEEE Conf. Comput. Vis. Pattern
Recognit., Jun. 2014, pp. 1805–1812.
[15] K. Liu, M. Zhang, and Z. Pan, ‘‘Facial expression recognition with CNN
ensemble,’’ in Proc. Int. Conf. Cyberworlds (CW), Sep. 2016, pp. 163–166.
[16] C. Huang, ‘‘Combining convolutional neural networks for emotion recognition,’’ in Proc. IEEE MIT Undergraduate Res. Technol. Conf. (URTC),
Nov. 2017, pp. 1–4.
[17] N. Zeng, H. Zhang, B. Song, W. Liu, Y. Li, and A. M. Dobaie, ‘‘Facial
expression recognition via learning deep sparse autoencoders,’’ Neurocomputing, vol. 273, pp. 643–649, Jan. 2018.
[18] D. C. Tozadore, C. M. Ranieri, G. V. Nardari, R. A. F. Romero, and
V. C. Guizilini, ‘‘Effects of emotion grouping for recognition in humanrobot interactions,’’ in Proc. 7th Brazilian Conf. Intell. Syst. (BRACIS),
Oct. 2018, pp. 438–443.
[19] E. Barsoum, C. Zhang, C. C. Ferrer, and Z. Zhang, ‘‘Training deep
networks for facial expression recognition with crowd-sourced label distribution,’’ in Proc. 18th ACM Int. Conf. Multimodal Interact., 2016,
pp. 279–283.
[20] I. J. Goodfellow, ‘‘Challenges in representation learning: A report on three
machine learning contests,’’ Neural Netw., vol. 64, pp. 59–63, Apr. 2015.
[21] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei, ‘‘ImageNet:
A large-scale hierarchical image database,’’ in Proc. IEEE Conf. Comput.
Vis. Pattern Recognit., Jun. 2009, pp. 248–255.
[22] K. Simonyan and A. Zisserman, ‘‘Very deep convolutional networks for
large-scale image recognition,’’ 2014, arXiv:1409.1556. [Online]. Available: http://arxiv.org/abs/1409.1556
[23] C. Dong, ‘‘Learning a deep convolutional network for image superresolution,’’ in Computer Vision, vol. 8692, D. Fleet, Ed. Cham, Switzerland: Springer, 2014, pp. 184–199.
[24] J. Kim, J. K. Lee, and K. M. Lee, ‘‘Accurate image super-resolution using
very deep convolutional networks,’’ in Proc. IEEE Conf. Comput. Vis.
Pattern Recognit. (CVPR), Jun. 2016, pp. 1646–1654.
[25] W. Shi, J. Caballero, F. Huszar, J. Totz, A. P. Aitken, R. Bishop, D. Rueckert, and Z. Wang, ‘‘Real-time single image and video super-resolution
using an efficient sub-pixel convolutional neural network,’’ in Proc. IEEE
Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2016, pp. 1874–1883.
[26] C. Ledig, L. Theis, F. Huszar, J. Caballero, A. Cunningham, A. Acosta,
A. Aitken, A. Tejani, J. Totz, Z. Wang, and W. Shi, ‘‘Photo-realistic
single image super-resolution using a generative adversarial network,’’
in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017,
pp. 4681–4690.
[27] B. Lim, S. Son, H. Kim, S. Nah, and K. M. Lee, ‘‘Enhanced deep residual
networks for single image super-resolution,’’ in Proc. IEEE Conf. Comput.
Vis. Pattern Recognit. Workshops (CVPRW), Jul. 2017, pp. 1132–1140.
[28] Y. Hu, X. Gao, J. Li, Y. Huang, and H. Wang, ‘‘Single image
super-resolution via cascaded multi-scale cross network,’’ 2018,
arXiv:1802.08808. [Online]. Available: http://arxiv.org/abs/1802.08808
[29] M. Jaderberg, K. Simonyan, A. Zisserman, others, and K. Kavukcuoglu,
‘‘Spatial transformer networks,’’ in Proc. Adv. Neural Inf. Process. Syst.,
2015, pp. 2017–2025.
[30] J. Dai, H. Qi, Y. Xiong, Y. Li, G. Zhang, H. Hu, and Y. Wei, ‘‘Deformable
convolutional networks,’’ in Proc. IEEE Int. Conf. Comput. Vis. (ICCV),
Oct. 2017, pp. 764–773.
[31] M. Hu, H. Wang, X. Wang, J. Yang, and R. Wang, ‘‘Video facial emotion recognition based on local enhanced motion history image and
CNN-CTSLSTM networks,’’ J. Vis. Commun. Image Represent., vol. 59,
pp. 176–185, Feb. 2019.
[32] S. Li, W. Zheng, Y. Zong, C. Lu, C. Tang, X. Jiang, J. Liu, and W. Xia, ‘‘Bimodality fusion for emotion recognition in the wild,’’ in Proc. Int. Conf.
Multimodal Interact., Oct. 2019, pp. 589–594.
[33] A. Sepas-Moghaddam, A. Etemad, F. Pereira, and P. L. Correia, ‘‘Facial
emotion recognition using light field images with deep attention-based
bidirectional LSTM,’’ in Proc. ICASSP - IEEE Int. Conf. Acoust., Speech
Signal Process. (ICASSP), May 2020, pp. 3367–3371.
[34] C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna, ‘‘Rethinking
the inception architecture for computer vision,’’ in Proc. IEEE Conf.
Comput. Vis. Pattern Recognit. (CVPR), Jun. 2016, pp. 2818–2826.
[35] B. Zoph, V. Vasudevan, J. Shlens, and Q. V. Le, ‘‘Learning transferable
architectures for scalable image recognition,’’ in Proc. IEEE/CVF Conf.
Comput. Vis. Pattern Recognit., Jun. 2018, pp. 8697–8710.
[36] R. Müller, S. Kornblith, and G. Hinton, ‘‘When does label smoothing
help?’’ in Proc. NIPS, 2019, pp. 4694–4703.
[37] M.-I. Georgescu, R. T. Ionescu, and M. Popescu, ‘‘Local learning with deep
and handcrafted features for facial expression recognition,’’ IEEE Access,
vol. 7, pp. 64827–64836, 2018.
[38] J. Zeng, S. Shan, and X. Chen, ‘‘Facial expression recognition with inconsistently annotated datasets,’’ in Proc. Eur. Conf. Comput. Vis., vol. 11217,
2018, pp. 227–243.
[39] K. Wang, X. Peng, J. Yang, D. Meng, and Y. Qiao, ‘‘Region attention
networks for pose and occlusion robust facial expression recognition,’’
IEEE Trans. Image Process., vol. 29, pp. 4057–4069, 2020.
[40] W. Hua, F. Dai, L. Huang, J. Xiong, and G. Gui, ‘‘HERO: Human emotions
recognition for realizing intelligent Internet of Things,’’ IEEE Access,
vol. 7, pp. 24321–24332, 2019.
[41] J. Howard. (2018). Fastai. [Online]. Available: https://github.
com/fastai/fastai
[42] A. Paszke, S. Gross, S. Chintala, G. Chanan, E. Yang, Z. DeVito, Z. Lin,
A. Desmaison, L. Antiga, and A. Lerer, ‘‘Automatic differentiation in
PyTorch,’’ in Proc. NIPS, 2017, pp. 1–4.
[43] D. P. Kingma and J. Ba, ‘‘Adam: A method for stochastic
optimization,’’ 2014, arXiv:1412.6980. [Online]. Available:
http://arxiv.org/abs/1412.6980
[44] L. N. Smith, ‘‘Cyclical learning rates for training neural networks,’’
in Proc. IEEE Winter Conf. Appl. Comput. Vis. (WACV), Mar. 2017,
pp. 464–472.
[45] J. Cai, Z. Meng, A. S. Khan, Z. Li, J. O’Reilly, and Y. Tong,
‘‘Probabilistic attribute tree in convolutional neural networks for facial
expression recognition,’’ 2018, arXiv:1812.07067. [Online]. Available:
http://arxiv.org/abs/1812.07067
[46] Y. Fan, J. C. Lam, and V. O. Li, ‘‘Multi-region ensemble convolutional
neural network for facial expression recognition,’’ in Artificial Neural
Networks and Machine Learning (Lecture Notes in Computer Science),
vol. 11139. Berlin, Germany: Springer, 2018, pp. 84–94.
[47] F. Lin, R. Hong, W. Zhou, and H. Li, ‘‘Facial expression recognition with
data augmentation and compact feature learning,’’ in Proc. 25th IEEE Int.
Conf. Image Process. (ICIP), Oct. 2018, pp. 1957–1961.
[48] S. Albanie, A. Nagrani, A. Vedaldi, and A. Zisserman, ‘‘Emotion recognition in speech using cross-modal transfer in the wild,’’ in Proc. ACM
Multimedia Conf. Multimedia Conf., 2018, pp. 292–301.
[49] K. He, X. Zhang, S. Ren, and J. Sun, ‘‘Deep residual learning for image
recognition,’’ in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR),
Jun. 2016, pp. 770–778.
[50] J. Hu, L. Shen, S. Albanie, G. Sun, and E. Wu, ‘‘Squeeze-and-excitation
networks,’’ IEEE Trans. Pattern Anal. Mach. Intell., vol. 42, no. 8,
pp. 2011–2023, Aug. 2020.