基于对比学习的标签有效语义切分方法

基于对比学习的标签有效语义切分方法

摘要

收集标记数据的语义分割任务是昂贵且耗时的,因为它需要密集的像素级注释。虽然最近基于卷积神经网络(CNN)的语义分割方法通过使用大量标记的训练数据来实现了令人印象深刻的结果,但随着标记数据的量减少,它们的性能显着下降。发生这种情况是因为随着事实上的跨熵损耗训练的深度CNN可以容易地过度占据少量标记数据。要解决这个问题,我们提出了一种简单有效的对比学习的学习训练策略,我们首先使用像素 - 明智的基于类标签的对比丢失,然后使用跨熵损失进行微调。该方法增加了类内的紧凑性和阶级间可分离性,从而导致更好的像素分类器。我们展示了使用CityCapes和Pascal VOC 2012分段数据集的完全监督和半监督设置中所提出的训练策略的有效性。我们的结果表明,当标记数据的数量有限时,基于标签的对比损价导致基于标签的对比损价导致大量的性能提升(在某些设置中超过20%)。

简介

在最近的过去,通过利用大量密集像素级注释,基于卷积神经网络(CNNS)的各种方法在多个语义分段数据集上报告了出色的结果。但是,标记具有像素级注释的图像是耗时和昂贵的。例如,在CityScapes数据集中注释单个图像所花的平均时间为90分钟.Pascal_Drop显示了使用跨熵丢失下降在Pascal VOC 2012数据集上训练的Deplabv3 +模型的性能如何随着训练图像的数量减少而降低。发生这种情况是因为随着跨熵损耗训练的CNN可以容易地磨损到少量标记数据,因为跨熵损失没有明确鼓励类内的压缩度或课程之间的大边距。为了解决这个问题,我们建议使用基于像素的基于类标签的对比丢失(称为对比预先估计)来先前推出CNN特征提取器,然后微调包括Softmax分类器的整个网络,包括Softmax分类器 - 网上损失(称为softmax细小调谐)。emb_pascal20_baseline和meb_pascal20_proped显示使用2118来自跨熵丢失和所提出的策略的模型的Softmax输入功能空间中各种类的分布,使用2118 Pascal VOC 2012数据集。 Pascal VOC 2012验证数据集上相应模型的平均值分别为39.1和62.7。随着拟议策略训练,课堂支援区域更紧凑,分开,导致更好的性能。

我们使用T-SNE来生成可视化。

我们展示了拟议的训练策略在完全监督和半监督的环境中的有效性。我们的主要贡献如下。

  • 简单的方法:我们提出了一种简单的基于对比的学习训练策略,可以提高语义分割模型的性能。我们认为我们的训练策略的简单性是其主要优势,因为它可以通过现有和未来的语义细分方法轻松采用。
  • 更好的结果:我们展示了基于标签的对比预制导致两种广泛使用的语义分段数据集的大型性能提升,尤其是当标记数据的数量有限时。
  • 详细分析:我们在训练有素的模型的特征空间中显示了类分布的可视化,以便为提出的训练策略更好地提供洞察力(参见图 fem_pascal20_baseline和fem_pascal20_proposed)。我们还提出了各种融合研究,证明了我们的设计选择。

相关工程

这些方法通过对比负对对形成正面对以判别方式学习表示。最近,已经提出了用于自我监督的视觉表现学习的基于对比损失的几种方法。这些方法将每个实例视为一个类,并使用基于对比的丢失的实例歧视来进行表示学习。具体地,它们使用增强版本来形成实例,以形成正对和其他实例以形成负对对比损耗。注意到使用大量负面的否定对于基于对比的损失的代表学习的成功至关重要,各种最近的方法使用内存库来存储表示。虽然最近的一些对比方法试图将其成功归因于相互信息的最大化,但他们的成功不能归因于单独的互信息的属性。最近,建议监督图像分类任务的对比损失。由于已经引入了CNN来解决语义分割问题,因此已经提出了几种基于CNN的基于CNN的方法,从而使用大量的像素级注释逐渐提高了性能。然而,收集密集像素级注释是困难且昂贵的。为了解决这个问题,一些现有的工作侧重于利用较弱的监督形式,例如界限框,涂鸦,点和图像级标签,或者与密集像素级监督一起。虽然这项工作还专注于提高语义分段性能时,当像素级注释有限时,我们不使用任何其他形式的注释。

相反,我们提出了一种基于对比的学习预用策略,无需任何其他数据即可实现显着性能。处理有限标记数据的另一项工作包括利用未标记图像的半监督方法。虽然其中一些作品使用生成的对抗性训练来利用未标记的图像,但其他人使用伪标签和基于一致性的正则化与各种数据增强。拟议的对比预制策略与这些方法互补,可以与它们一起使用。我们通过使用伪标签显示半监督设置对比预借预介质的有效性,我们在本文中证明了这一点。最近,建议通过在VMF分布模型的混合下最大化提取的像素特征的日志似然来训练语义分割模型的CNN特征提取器。在推理期间,首先将从图像中提取的像素特征分段使用球面K-icon群集,然后对每个段执行K-Collecti邻搜索,以从训练集中的段中检索标签。虽然该方法被证明与广泛使用的像素-Wise SoftMax训练相比提高性能,但它非常复杂,因为它使用了一种用于训练的两阶段预期最大化算法。相比之下,拟议的训练策略很简单,可以通过现有和未来的语义细分方法轻松采用。

实验

数据集和MetricsPascal VOC 2012

该数据集由10,582个训练集,包括由1,449验证和456个测试图像组成,具有20个前景对象类和一个背景类的像素级注释。在21个类中平均平均值的像素交汇处(iou)的衡量表现。此数据集包含在50个不同城市的街道场景中收集的5,000张图像的高质量像素级注释。遵循属于7个超类别(地面,建筑,物体,性质,人,车辆和天空)的19个语义标签进行评估,忽略空隙标签。性能是以跨19个类的像素IOU的衡量标准。训练,验证和测试分别包含2975,500和1525个图像。对于两种数据集,我们在完全监督和半监控的环境中执行实验,改变标记和未标记的训练数据的数量。

型号架构

我们的功能提取器跟随DEEPLABV3 $ + $编码器 - 解码器架构与DEEPLABV3的基于ResET50的编码器。特征提取器的输出空间分辨率比输入分辨率低四倍。我们的投影头由三个$ 1\times 1 $卷积图层组成,具有256个通道,然后是单位归一化层。投影头中的前两层使用Relu激活功能。

训练和推理

之后,我们使用$ 513\times 513 $随机作物从预处理(随机左侧翻转和缩放)输入图像进行训练。所有型号通过在8个复制品上使用异步随机梯度下降训练,其中8次复制品尺寸为16,重量衰减为$ 4e^{-5} $,动量为0.9和余弦学习率衰减。为了对比预制,我们使用0.1和300K训练步骤的初始学习率。对于Softmax微调,我们使用初始学习率为0.007和300K训练步骤的训练步骤在Pascal VOC 2012 DataSet和CityCAPES数据集的情况下的标记图像上高于2500时,以及50K的训练步骤当标记图像的数量低时,我们观察到使用更长的训练的其他设置。 。当我们使用SoftMax训练而没有对比预先估计时,我们使用初始学习率为0.03和600K训练步骤的训练步骤在Pascal VOC 2012 DataSet的情况下,在CityCapes数据集的情况下为1000时,以及300k其他设置中的训练步骤。在所有实验中,对比损耗的温度参数$\tau $设定为0.07。我们使用来自对比的预磨损的颜色扭曲,以及使用色调和饱和度调整的软MAX微调的随机亮度和对比度调整,从训练Softmax分类器的性能下降略有下降。 。对于生成伪标签,我们使用Pascal VOC 2012和CityCapes数据集的所有前景类使用0.8的阈值,以及Pascal VOC 2012数据集的背景类的阈值为0.97。

用于$ 513\times 513 $输入,我们的特征提取器产生$ 129\times 129 $特征图。由于对比度损失的内存复杂性在像素的数量中是二次的,因此要避免GPU存储器问题,我们将特征映射调整为$ 65\times 65 $在计算对比损耗之前使用双线性调整大小。相应的低分辨率标签图是从原始标签映射获得的,使用最近的邻沿下采样获得。对于SoftMax训练,我们使用双线性调整在计算像素方面的交叉熵损耗之前,从$ 129\times\ 129 $到$ 513\times 129 $上遵循和上置Logits。由于该模型是完全卷积的,在推理期间,我们直接在输入图像上运行它,并使用Bilinear调整尺寸将输出记录上置为输入分辨率。

结果 - 全监督设置

FIGURYSCAPES_FS ANDPASCAL_FS分别通过完全监督设置对比预借预先绘制的CITYSCAPES和PASCAL VOC 2012年数据集的验证拆分进行性能改进。 $ 2\times $同时提高性能。 $ 5\times $更多数据(5295图像)。这些结果清楚地展示了所提出的基于标签的对比预制覆盖的有效性。 Pascal VOC 2012 DataSet上看到的性能改进远高于CityScapes DataSet.visual_Result的改进,显示了使用来自Pascal VOC 2012 DataSet的2118标记的图像,而无需基于标签的对比预制训练的模型的一些分段结果。通过减少背景和各种前景阶级的混淆,以及不同前景阶级之间的混淆,对比预借预制提高了分割结果。

结果 - 半监控设置

FigurityScapes_ss和pascal_sss分别通过半监督设置中的对比预先绘制获得了Cityscapes和Pascal VOC 2012年数据集的验证拆分的性能改进。 $ 2\times $,同时提高Pascal VOC 2012数据集的性能。

figurityscapes_pl_improv andpascal_pl_improv分别通过使用伪标签获得的Citycapes和Pascal VOC 2012数据集的验证拆分进行性能改进。尽管伪标签是利用未标记数据的直接方法,但它具有令人印象深刻的性能收益,无论是在没有对比的预制税。

消融研究

在本节中,我们分别在CityCAPES和Pascal VOC 2012年数据集上的完全监督环境下进行各种消融研究,分别具有596和2118个标记的训练图像。

失真对对比损失的重要性

在基于对比损失的自监督学习中,distortions是产生正对的必要条件。但是,在基于标签的对比学习的情况下,可以使用标签生成正对,并且因此,目前尚不清楚重要的扭曲。在这项工作中,我们使用最近的自我监督学习方法的颜色扭曲,这适用于图像分类的下游任务.Distortions显示了在对比预制阶段使用这些扭曲的效果。我们可以在Citycapes数据集上看到小的性能增益,并且Pascal VOC 2012年的GAGAL DataSet差异低于0.5的增益太小,无法得出任何结论。 。这些结果表明,用于图像识别良好的扭曲可能无法用于语义分割。

对比损耗变体

本作中使用的基于像素的基于标签的对比损失首先为每个图像分开计算,然后在小纤维中的所有图像上平均。我们将此称为单图像变体。另一种选择是将小批次中的所有像素视为用于计算对比损耗的单个像素。批量变体。注意,对比损耗的内存复杂性在像素的数量中是二次的。因此,为了避免GPU存储器问题,我们从整个小匹配来随机采样10K像素,以计算对比损耗的批量变体。 Tableloss_variants比较了这两个变体的性能。

外部分类数据集

研究了额外预先训练在大型图像分类数据集上的效果,我们比较从划痕训练的模型与TableImagenet_Result中的想象成普雷雷达权重训练的模型。当未使用对比呈预灌注时,ImageNet预先预订会导致城市景观和Pascal VOC 2012数据集的大型性能增益。然而,当使用对比呈预灌注时,由于想象成普雷威预测引起的性能收益是有限的(Citycapes数据集只有1.1点,帕斯卡VOC 2012数据集没有改进)。此外,第二行和第三行的结果表明,不使用任何额外标签的对比预制,胜过想象成借鉴(使用超过一百万额外的图像标签)在Pascal VOC 2012数据集上,仅限于CityScapes DataSet上有点差(1.3分)。这些结果清楚地展示了对比借鉴降低了标记数据的需要的有效性。

在测试拆分上的性能

TableCity_Test显示了通过在完全监督环境中对比预借预先绘制而获得的城市景观和Pascal VOC 2012年测试分割的性能改进。与验证分裂的结果类似,基于标签的对比普雷威预测导致对测试分裂的显着性能改进。

结论和未来工作

基于CNN的基于CNN的语义分割模型,具有跨熵损耗的跨熵损失,容易过度占用少量训练数据,因此在受限标记数据有限的训练时表现不佳。要解决此问题,我们提出了一种简单有效的基于对比的学习训练策略,我们首先使用基于像素的基于标签的对比损耗来预留模型的特征提取器,然后微调包括Softmax分类器的整个网络使用跨熵损失。这种训练方法增加了类内紧凑性和级别间可分离性,从而实现了更好的像素分类器。我们在完全监督和半监督的环境中对两个广泛使用的语义分割数据集进行了实验,即Pascal VOC和CityCapes。在两个设置中,我们通过使用对比预制来实现两个数据集的大量性能提升,特别是当标记数据的数量有限时。在这项工作中,我们使用了一个简单的基于伪标签的方法来利用半监督设置中的未标记图像。我们感谢Yukun Zhu和Liang-Chieh陈从谷歌与Deeblab CodeBase支持。

查看原文,可以获取中英文对照、更多更全的公式和图片内容。AI千集

上一篇:Python在线dlib库地址


下一篇:总结一下咱们JS中的this