摘要
由于对隐私信息的不了解,在线共享图像对广泛的用户构成了安全威胁。深度特征已被证明是图像的强大表示。然而,深度特征通常存在尺寸大和需要大量数据进行微调的问题。与普通图像(例如场景图像)相比,隐私图像通常由于敏感信息而受到限制。在本文中,我们提出了一种新方法,可以在有限的数据上工作并生成更小尺寸的深度特征。对于训练图像,我们首先从预训练的模型中提取初始深度特征,然后采用 K-means 聚类算法来学习这些初始深度特征的质心。我们使用从训练特征中学习到的质心来提取每个测试图像的最终特征,并使用三角形编码对我们的最终特征进行编码。为了提高特征的可辨别性,我们进一步对从不同层获得的两个无监督深度特征进行了融合。实验结果表明,所提出的特征在分类精度和测试时间方面都优于最先进的深度特征。
1.介绍
随着人们共享个人和私人图像的社交媒体在网络上的流行,隐私图像分类变得越来越重要。隐私图像分类系统允许人们知道他们共享的图像是私人的还是公共的。私人图像,如涉及家庭的图像,通常涉及用户的私人信息。相比之下,公共图像通常涉及场景、对象、动物等,不包括私人信息。隐私图像分类的目的是让人们在在线共享图像时保持警惕。有时,人们在分享自己的信息时可能不知道自己做的是对还是错。在这种情况下,能够对私有和公共图像进行分类的系统对用户非常有用。
对于图像分类,从图像中提取特征是一个基本步骤。 隐私图像对分类具有挑战性,因为它们可能包含高度的类内差异。 如图 1 所示,我们在两个类别(私人和公共)中观察到它们都有这样的模式。 幸运的是,隐私图像只有两个类别,因此我们不需要像其他场景图像分类中那样考虑多于两个类别的变化模式[14]。
一般来说,现有的隐私图像特征提取方法包括传统的基于视觉的方法[26]、基于深度学习的方法[19–23,27]和语义方法[13,15]。在比较传统的基于视觉的特征和基于深度学习的特征时,我们注意到,借助于从预先训练的深度学习模型中学习到的后一种特征,分类精度有了显著的提高。借助微调的深度学习模型,它甚至可以实现更高的分类精度,这需要大量数据[23]。然而,在隐私图像分类任务中,由于隐私问题,数据量非常有限。从这些模型的中间层模拟提取特征会使特征的大小更大,从而增加分类过程中的计算负担。综上所述,现有的隐私图像处理方法存在两个问题:1)特征维数灾难;2)如果我们想要获得一个微调模型或新的深度学习模型,则需要大量数据。因此,隐私图像分类任务特别需要有利于低特征尺寸和有限数据的特征提取方法。
在本文中,我们提出了一种在无监督特征学习的帮助下提取隐私图像特征的新方法,该方法不仅可以处理有限数量的隐私图像,还可以产生较小的特征尺寸。受到 [20] 中工作的启发,作者声称预训练模型对隐私图像的微调模型的有效性,我们也在这项工作中选择了一个预训练模型。具体来说,在几个预训练的模型中,我们选择了 ResNet-50 [6] 模型,与 VGG 等最先进的深度学习模型相比,该模型对不同类型图像的分类具有更低的错误率-Net [12] 和 GoogleNet [17]。此外,ResNet-50 的层数也比其他版本(ResNet-101 和 ResNet-152)少,因此速度更快。为了执行无监督特征学习,我们对从 ResNet-50 [6] 中提取的深度特征执行 K-means 聚类,该深度特征已经用大量标记图像数据集(即 ImageNet [4])进行了预训练。然后,我们使用三角编码 [3] 对特征进行编码,以实现我们的无监督深度特征。 K-meansclustering 可以为隐私图像生成模式(上下文)的质心。聚类方法的特点是(1)隐私图像的可区分模式和(2)由于其降维能力而具有较低的特征尺寸。我们在 PicAlert [25] 上测试了我们的无监督深度特征,发现我们的特征可以产生比最先进模型提取的深度学习特征更好的分类精度。
2.相关工作
一些研究探索了使用不同类型特征的隐私图像分类问题,如SIFT(尺度不变特征变换)和RGB(红-绿-蓝)[26],基于文本和深度学习的特征[19-23,27],语义特征[15],等等。
Zerr等人[25]使用了各种类型的视觉特征,如量化的SIFT、颜色直方图、亮度和清晰度以及图像的文本特征。他们已经证明,通过文本和视觉特征的融合而设计的特征比单纯的视觉特征更为突出。类似地,作者在[19,20,22]中强调使用文本特征,如基于深度标记(对象标记和场景标记)和用户标记(用户注释标记)的特征对隐私图像进行分类,并声称基于ontags设计的特征优于最先进的特征,如SIFT,GIST(广义搜索树)和全连接特征(VGG网络的FC特征)。钟等。[27]为基于小组的个性化方法选择了深度学习模型的功能,进一步证明了高级功能(如FC功能)在该领域的适用性。类似地,Spyromitros等人[15]基于大量分类器的输出探索了这些语义特征。它们提出的语义特征优于传统的基于视觉的特征,如SIFT、EDCH(边缘方向一致性)特征等。
最近,Tonge 等人。 [21] 基于预训练的深度学习模型探索文本特征,产生图像的场景信息,称为场景标签。作者揭示了这种场景标签与用户标签和对象标签的组合优于单个标签的特征。同样,Tran 等人。 [23]通过对象特征和卷积特征的串联提取层次特征。对于实验,作者使用了双管道 CNN(卷积神经网络)。将在两个深度学习模型上进行微调操作后获得的 FC 特征连接起来以获得图像的最终层次特征。他们的方法需要大量图像进行训练。然而,在 Tonge 等人最近的研究中。 [20] 从预训练模型中提取的特征(AlexNet [8] 的 FC 特征)优于从微调深度学习模型 [23] 中提取的分层特征。因此,对于隐私图像,从预训练模型中提取的任务通用特征比从微调深度学习模型中提取的任务特定特征更加突出。在训练图像数量有限的情况下,这为利用预训练模型进行隐私图像特征提取打开了一扇门。
3.无监督特征提取
为了提取无监督的深度特征,我们选择了预先训练好的ResNet-50模型。由于以下原因,预先训练的模型是有利的:1)微调模型需要大量数据来克服过度拟合,2)用于研究的私有图像数量非常有限。整体方法如图2中的方框图所示,包括提取无监督深度特征的三个主要步骤,即:初始深度特征提取(第3.1节)、深度特征上的K均值聚类(第3.2节)和无监督深度特征编码(第3.3节)。
3.1 初始深度特征提取
我们将顶部激活层的特征作为候选深度特征,它可以根据图像中对象的细节更好地表示图像[14]。激活层的深度特征的原始维度为 7*7*512, 它提供了 512 维特征(每个特征图为 7*7)。 为了将特征图表示为单个值,我们操作全局平均池化,利用具有高值和低值的深层特征的属性。 这导致图像的 512 维向量,其中每个组件代表其对应的特征图。 让 H、W 和 D 表示 ResNet-50 模型的顶部激活层的候选深度特征的高度、宽度和深度。
其中f(xa)是基于特征图{xia1,xia2,··,xiaD}H的图像xa的平均集合特征∗Wi=1。公式(1)计算相应特征图的代表值。
从等式(1)获得的合并特征通过两种规范化策略进一步处理:幂规范化和L2规范化。我们首先使用特征的有符号平方根范数进行幂归一化,然后执行L2归一化,因为它们的性能更高[9,10]。
等式(2)计算平均合并特征向量f(xa)的每个元素的基于平方根的功率归一化(f(x′a))。现在,这些特征没有被恶意化,如等式(3)所示。
同样,方程(3) 产生 f(x''a),它是特征向量f(x′a)的每个元素的L2归一化。从等式(3)中提取的图像特征向量将用于执行K-均值聚类以学习质心(第3.2节)。
表 1 列出了有关本工作中使用的层的详细信息。 前五个激活层是 512-D,特征图大小为 7*7。 对于平均池化层 (avgpool),ResNet-50 模型中的维度为 2048-D,特征图大小为 1*1。 我们对每个特征图进行全局平均池化以获得对应特征图的聚合值。
3.2 深度特征上的K-均值聚类
我们执行 K-means 聚类来学习训练数据集的初始深度特征的质心。 首先,我们将 k 设置为初始质心数。 让ck代表第k个聚类中心。 k 个簇和质心根据数据点到质心的距离进行优化。k 设置为 250(第 4.3 节)
这在经验上比其他方法产生更高的精确度。虽然有设计更精细的聚类算法,但K-means易于使用,我们发现它在我们的环境中是有效的。
3.3 无监督深度特征编码
在计算学习的质心{ck}之后,我们使用三角形编码技术[3]计算所有初始深度特征的强度,该技术比Coates等人[3]描述的硬分配编码方案具有更高的性能。
式中,zk=d(f(x′a),ck)和μ是所有f(x′a)到所有中心的平均距离,f(ˆxa)表示式(4)中的无监督深部特征。
我们计算任意两点之间的欧几里得距离,如等式所示。 (5).计算出对应的初始特征的平均距离后,我们需要检查一个距离是否低于或高于其对应的平均距离。 这是因为到所有质心的距离揭示了相应初始深度特征质心之间的隐含关系。 为此,如果距离高于平均距离,我们将距离设置为 0。 否则我们将其设置为对应点的平均距离与欧氏距离的差值。 通过这个方案,我们能够识别出相应的初始深度特征对所有质心的重要性,这进一步促进了特征的编码。 在这项工作中,生成的无监督深度特征的维度是 k。 这里,k=250 为每个隐私图像产生一个 250 维的向量。
我们假设初始深度特征由 Alg 中的 f(x'') 表示。 1 用于训练。 为了提取建议的特征,我们执行了几个步骤。 首先,我们对这样的深层特征进行K-means聚类以获得ck簇质心,然后从第2行到第13行进行三角形编码操作。我们重复第2行到第13行以提取测试初始深度特征的建议特征 ,基于从训练特征中学习到的质心{ck}。
4.实验结果
本节分为三个小节:第 4.1 节解释所使用的数据集; 第 4.2 节解释了我们的实验设置; 4.3节讨论了实验中不同k值的分析; 第 4.4 节讨论结果和测试时间。
4.1 数据集
我们对从唯一可用的隐私图像数据集 PicAlert [26] 中采样的 Flickr 图像进行实验,该数据集由 Spyromitros 等人提供。 [15]。 该数据集包含两类图像:私人和公共。 数据集中私有图像的数量低于公共图像,我们遵循 Tonge 等人建议的类似配置。 [22] 用于实验中的训练/测试拆分。 图像总数为 4700 张,其中,3917 张(83%)用于训练,783 张(17%)用于测试。 同样,每个子集(训练和测试)中私有/公共图像的比率为 3:1。
4.2 实验装置
实验是在配备 NVIDIA 1050 GeForceGTX GPU 和 16GB RAM 的笔记本电脑上进行的。 我们使用开源的 R [11] 中实现的 keras [2] 包。 此外,我们通过利用 Liblinear [5] 中的 L2 正则化逻辑回归 (LR) 分类器来测试我们提出的无监督深度特征。 我们将偏差固定为 1 并调整 C,这是在 L2 正则化逻辑回归 (LR) 分类器中调整的主要参数。 网格搜索技术用于在 1 和 50 范围内的 C,以搜索最佳值。
4.3 分析 k
为了选择最好的 k,即我们数据集的簇数,我们使用实验中从 ResNet-50(47) 方法提取的特征进行分析。 k 的测试值在 100 和 500 的范围内,如 见表 2。在观察表 2 的同时,我们注意到 clusterk=250 的数量比其他值产生了更突出的分类准确度 (85.69%)。 因此,我们凭经验使用 250 作为 K-means 聚类的聚类数,以提取提出的无监督深度特征 (UDF)。
4.4 结果分析
我们将在本节讨论分类精度和预测时间的结果。
分类精度
我们将提出的特征与最先进的特征(从各种预先训练的深度学习模型中提取的深度特征)在分类精度方面进行了比较。为了检验哪些深层特征更有效,我们评估了ResNet-50模型六个不同层的深层特征。在表3中,我们看到我们建议的从每一层提取的无监督深度特征优于对应层的现有特征。最高精度来自激活层48(ResNet-50(48)),即85。95%,在所有无监督的深部特征中。类似地,最小精确度由ResNet-50(42)产生,其为84.80%。我们注意到来自ResNet-50(avgpool)层的有趣结果,其精度(85.56%)对于这两种特征是相同的。它是ResNet-50模型的顶层,承载着图像中物体的重要信息。
尽管尺寸较小,但与相应的原始深度特征相比,除了顶层之外的每一层 [6] 所提出特征的分类精度都在不断提高。此外,为了改进隐私图像的分类,我们融合了两个无监督的深度特征。我们测试了两种不同深度特征的组合,并根据经验发现 ResNet-50(47) 和 ResNet-50 (avgpool) 的组合产生更高的可分离性。也就是说,由此产生的特征变得比其他类型的组合更容易区分。我们使用串行特征融合策略 [24],它总共产生 500 维特征。我们的融合特征与最先进的深度特征的比较如表 4 所示。 比较的深度特征是从各种预训练的深度学习模型中提取的:VGG-Net [12](VGG-16 和 VGG- 19)、ResNet-50 [6]、DenseNet-121 [7]、DenseNet-169 [7]、DenseNet-201 [7]、Inception-V3 [18]、Xception [1]、Inception-ResNet-v2 [16] ]。我们观察到 Inception-ResNet-v2 [16] 的最低准确率为 74.84%。具有 VGG-16(FC2) 特征的 VGG-Net [12] 产生 84.80% 的准确度(这是数据集上第二高的准确度),这显然受益于更大的特征尺寸。我们融合的深度特征产生了 86.33% 的准确度,比最低准确度 [16] 高 11.49%。除了 VGG-Net [12] 和 ResNet-50 [6] 之外,其他预训练模型的特征不适合隐私图像的分类,因为它们的分类精度较低。我们注意到我们提出的特征在分类精度方面优于现有特征。
测试时间
我们还分析了我们提出的深度特征的效率,即分类过程中的测试时间。建议的无监督特征的测试时间与最先进的深度特征的测试时间进行了比较(表4)。测试时间以秒为单位。我们的融合功能实现了0。015秒,是最快的。我们还观察到,与相应的深度特征相比,分类过程中提出的特征的测试时间更短(表5)。最短测试时间报告dIS0。003s,这是所有时间中最短的。这归因于建议的特征尺寸小于原始深度特征尺寸:特征尺寸越大,预测速度越慢。我们在表6中列出了原始特征和建议特征的特征尺寸。由于我们在k-均值聚类期间将250设置为聚类质心(k)的数量,因此建议的特征的大小为250。在这里,我们注意到,我们提出的特性在测试时间方面也优于最先进的特性。
5.结论
在本文中,我们介绍了基于从ResNet-50模型中提取的深度特征的无监督深度特征。我们首先从ResNet-50模型的顶部激活层中为每个图像提取深度特征,然后在训练集上执行K-均值聚类以学习质心。最后,我们根据学习到的质心将计算出的特征编码为每个图像的特征向量。将特征向量作为训练模型的输入,训练模型给出预测。实验表明,我们提出的特征在隐私图像分类中比最新的深度特征更准确,测试时间更短。在未来,我们希望调查涉及两个以上类别的更复杂的隐私图像分类。