【论文阅读】Prior Guided Feature Enrichment Network for Few-Shot Segmentation

Prior Guided Feature Enrichment Network for Few-Shot Segmentation


用于小样本图像分割的先验引导特征增强网络(PFENet)

Abstract

最先进的语义分割方法需要足够的标记数据来获得良好的结果,并且如果不进行微调的话,就很难处理未知的新类。因此,提出了小样本分割的方法来解决这个问题,该方法通过学习一种模型来快速适应一些带有标签的支持样本的新类。由于训练类的高级语义信息使用不当以及查询与支持目标空间不一致,这些框架仍然面临着对未知类的泛化能力降低的挑战。为了缓解这些问题,我们提出了先验引导特征丰富网络(PFENet)。它包括:(1)一种无需训练的先验掩模生成方法,不仅保留了泛化能力,而且提高了模型性能;(2)特征富集模块(FEM),通过自适应地用支持特征和先验掩模丰富查询特征,克服了空间不一致性。在PASCAL-5i和 COCO数据集上的大量实验证明,所提出的先验生成方法和特征丰富模块(FEM)都显著改进了baseline方法。我们的PFENet在没有效率损失的情况下,也大大优于最先进的方法。令人惊讶的是,本文的模型甚至可以推广到没有标记支持样本的情况。

Introduction

深度学习的快速发展给语义分割带来了显著的改进。标志性框架[60]PSPNet、[3]Deeplab在自动驾驶、机器人视觉、医疗图像等领域有着广泛的应用。然而,如果没有足够的完全标记的数据,或者在处理未知类时,这些框架的性能会迅速降低。即使提供了额外的数据,微调仍然是耗费时间和资源的。
为了解决这一问题,提出了[33]沙班提出小样本分割方法,将数据分为支持集和查询集。如图1所示,
【论文阅读】Prior Guided Feature Enrichment Network for Few-Shot Segmentation

首先将支持集和查询集的图像发送到骨干网进行特征提取。特征处理可以通过生成分类器[33]、[41]的权值,进行余弦相似度计算[5]、[45]、[23],或者卷积[15]、[54]、[49]、[9]、[1]生成最终预测来完成。
支持集提供目标类的信息,帮助模型对查询图像进行精确的分割预测。这个过程模拟了这样一个场景,即模型在测试图像(查询)上使用很少的标记数据(支持)预测未知的类。因此,小样本模型需要快速适应新的类。然而,现有的小样本分割方法普遍存在的问题包括滥用高级特征导致的泛化损失以及查询与支持样本之间的空间不一致。在本文中,我们主要解决这两个难点。

泛化缩减&&高级特征
常见的语义分割模型严重依赖具有语义信息的高级特性。CANet[54]的实验表明,在小样本模型中,在特征处理过程中简单地添加高级特征会导致性能下降。因此,在小样本场景中利用语义信息的方法并不简单。与之前的方法不同,我们使用ImageNet[32]预先训练的查询高级特征,并支持图像来生成模型的“先验值”。这些先验信息有助于模型更好地识别查询图像中的目标。由于前面的生成过程是无需训练的,因此生成的模型不会失去对未见类的泛化能力,尽管在训练过程中频繁使用了所见类的高级信息。
空间不一致 此外,由于样本数量有限,每个支持对象的规模和位姿可能与查询目标存在较大差异,我们称之为空间不一致。为了解决这个问题,我们提出了一个新的模块——特征富集模块(FEM),该模块可以自适应地用支持特征来丰富查询特征。第4.3节中的消融研究表明,仅仅采用多尺度方案来解决空间不一致性是次优的,因为FEM提供了条件特征选择,有助于保留跨不同尺度传递的重要信息。与HRNet[44]、PPM[60]、ASPP[4]和GAU[53]等多尺度结构相比,本文提出的特征丰富模块(FEM)具有更好的性能。
最后,在提出的先验生成方法和特征富集模块(FEM)的基础上,构建了一种新的网络—先验引导特征富集网络(PFENet)。基于ResNet-50的PFENet仅包含10.8 M可学习参数,但在PASCAL-5i[33]和COCO[21]基准测试中,分别在1-shot和5-shot设置上实现了15.9和5.1 FPS。此外,我们通过将我们的模型应用于无标记数据可用的零样本场景来证明该模型的有效性。结果是令人惊讶的- PFENet在没有重大的结构修改下仍然取得了良好的性能。
我们在本文中的贡献有三个方面:

  1. 我们利用高级特征,并提出无需训练的前代,以极大地提高预测精度和保持高泛化。
  2. 通过整合支持特征和先验信息,FEM可以利用条件化的跨尺度信息交互自适应地精炼查询特征。
  3. PFENet在不影响效率的情况下,在PASCAL-5i和COCO数据集上实现了新的最先进的结果。

Related Work

Semantic Segmentation(语义分割)

语义分割是一个基础问题来预测每个像素的标签。完全卷积网络(FCN)[34]用于语义分割,它将分类框架中的全连接层替换为卷积层。DeepLab[3]、DPN[24]和CRF-RNN55[62]等方法利用CRF/MRF帮助细化粗预测。接受域在语义切分中起重要作用;因此,DeepLab[3]和Dilation[50]引入扩张的卷积以扩大接受野。采用[31]、[10]、[20]编码器-解码器结构,逐步重构和细化分割。
背景信息对于复杂场景的理解至关重要。ParseNet[22]应用全局池来进行语义分割。PSPNet[60]利用金字塔池模块(PPM)对不同区域的上下文信息进行聚合,非常有效。DeepLab[3]利用不同膨胀率的过滤器发展出atrous空间金字塔池(ASPP)。还介绍了注意力模型。PSANet[61]利用双向信息传播范式发展点方向的空间注意。Channelwise注意[55]和非局部风格注意[56],[8],[51],[16]对分割也很有效。这些方法在大样本分类上性能比较好。它们不是设计用来处理罕见的、不可见的类的。如果没有微调,它们也不容易适应。

Few-shot Learning(小样本学习)

小样本学习是在训练样本很少的情况下进行图像分类。有基于元学习的方法[2],[11],[7]和基于度量学习的方法[43],[40],[37],[52]。数据对于深层模型至关重要;因此,有几种方法可以通过合成更多的训练样本[57]、[13]、[47]来提高性能。与预测是在图像级的小样本学习不同,小样本分割是在像素级上的预测,这是更具挑战性的。
我们的工作与基于度量学习的小样本学习方法密切相关。原型网络[37]经过训练将输入数据映射到一个度量空间,在这个空间中类被表示为原型。在推理过程中,分类是通过为每个输入图像寻找最接近的原型来实现的,因为属于同一类的数据应该接近原型。另一个具有代表性的基于度量的工作是关系网络[40],它将查询和支持图像投影到1×1向量,然后根据它们之间的余弦相似度进行分类。

Few-shot Segmentation(小样本分割)

少样本分割将一般的语义分割置于一个少镜头场景中,在这个场景中,模型仅用少量支持样本对新类进行密集像素标记。OSLSM[33]首先通过学习为每个类生成分类器的权值来解决少出手分割。PL[5]将原型[37]应用于分割任务。它为每个类学习一个原型,并计算像素和原型之间的余弦相似度来进行预测。最近,CRNet[48]通过一个暹罗网络和一个交叉参考模块处理查询和支持图像,以挖掘两幅图像中的共现特征。PANet[45]引入了原型对齐规则化,鼓励模型学习一致的嵌入原型以获得更好的性能,而CANet[54]在合并查询和支持特性上使用迭代优化模块来迭代地细化结果。
类似于CANet[54],我们使用卷积来代替余弦相似度,余弦相似度在分割任务中可能不能很好地处理复杂的像素分类。然而,与CANet不同的是,我们的基线模型使用了更少的卷积操作,仍然取得了不错的性能。
如前所述,这些少镜头分割方法没有充分考虑泛化损失和空间不一致性。与PGNet[53]不同的是,PGNet[53]使用基于图的金字塔结构,通过Graph Attention Unit (GAU),然后是三个残块和ASPP[4]来细化结果,我们在多尺度结构中结合了一些基本的卷积操作和提出的先验掩模和FEM,以实现良好的性能。

Our Method

在本节中,我们首先简要描述3.1节中的小样本分割任务。在此基础上,分别在3.2节和3.3节提出了先验生成方法和特征富集模块(FEM)。最后,在3.4节中,我们将详细讨论我们提出的先验引导特征富集网络(PFENet)。

Task Description(任务描述)

一个简单的语义分割系统有两个集合,即查询集和支持集合。给定来自支持集S的k个样本,目标是从查询集的每个查询图IQ中分割Ctest中未知类的区域。
模型在Ctrain(base)上训练,在之前未知类的Ctest(novel)上测试(Ctrain∩Ctest=∅)。episode在[43]中提出,并首次应用于[33]中的小样本分割。每个集由一个支持集和一个查询集组成。支持集由k个样本S={S1, S2,…, SK},我们称之为“K-shot scenario”。支持样本Si一对{ISi, MSi},其中ISi, MSi分别为的支持图像和标签。对于查询集,Q={IQ, MQ},其中Q为输入查询图像,MQ为类别c的ground truth mask。查询支持对{IQ, S}={IQ, IS1, MS1, IS2, MS2,…, ISK, MSK}形成模型的输入数据批处理。查询图像的ground truth MQ对模型是不可见的,用于评估每集对查询图像的预测。

Prior for Few-Shot Segmentation

重要的观察(为什么使用先验引导)

CANet[54]通过仅从主干(如ResNet-50的conv3x和conv4x)中提取中级特征,在PASCAL-5i上大大优于先前的工作。在CANet中的实验也表明,高阶(如ResNet-50的conv5x)特征会导致性能下降。[54]中解释说,由于中间层特征由看不见的类共享的对象部分组成,所以它的性能更好,但我们的另一种解释是,高层特征中包含的语义信息比中间层特征更特定于类,这表明前者更有可能对模型对未见类的泛化能力产生负面影响。此外,高级特性直接提供语义信息,在识别属于Ctrain的像素和减少训练损失方面的贡献大于中层信息。因此,这种行为导致了对训练类的偏爱。缺乏泛化性和对训练类的偏好都对未知类的测试产生影响。
与发现高级特征对小样本分割性能有负面影响相反,之前的分割框架[59]、[31]利用这些特征为最终预测提供语义线索。这种矛盾促使我们提出,在训练类不敏感的方式中利用高级信息来提高小样本分割的性能。

Prior Generation

在我们的工作中,我们将ImageNet[32]预先训练的包含语义信息的高级特征转换为预先掩码,该掩码告诉像素属于目标类的概率,如图2所示。在训练过程中,骨干参数固定为[45]、[54]。因此,前面的生成过程不偏向训练类Ctrain,并且在对未见过的测试类Ctest进行评估时保持class不敏感性。让IQ, IS表示输入查询和支持图像,Ms表示二进制支持掩码,f表示骨干网络,XQ, XS表示高级查询和支持特性。
【论文阅读】Prior Guided Feature Enrichment Network for Few-Shot Segmentation
是Hadamard乘积,XQ和XS的尺寸均为[h, w, c]。注意,输出的F是用ReLU函数处理的。所以二进制支持掩码通过将其设置为零来移除支持特性中的背景。
具体地说,我们将查询特性XQ的先验YQ作为掩码用来揭示XQ和XS之间像素级对应关系。查询特征XQ有一个高值像素表示该像素与支持特征中的至少一个像素具有高对应关系。因此,它很可能位于查询图像的目标区域。通过将支持特征上的背景设置为零,查询特征的像素与支持特征上的背景没有对应关系——它们只与前景目标区域相关。为了构造YQ,我们首先计算像素xq∈XQ和xs∈XS的特征向量之间的余弦相似度cos(xq, xs)∈R
【论文阅读】Prior Guided Feature Enrichment Network for Few-Shot Segmentation
对于每个Xq∈XQ,我们取所有支持像素之间的最大相似度作为对应值Cq∈R

【论文阅读】Prior Guided Feature Enrichment Network for Few-Shot Segmentation
然后我们通过重塑CQ∈Rhw×1变成YQ∈Rh×w×1产生先验的mask YQ。我们用min-max归一化(Eq.(5))来处理syq,将值归一化到0和1之间,如图2所示。在公式(5) 在我们的实验中被设定为1e−7。
【论文阅读】Prior Guided Feature Enrichment Network for Few-Shot Segmentation
我们提出的先验生成方法的关键在于利用固定的高层特征,通过从等式(2)和(3)中给出的尺寸大小hw×hw的相似矩阵中取最大值来生成先验掩码。这个是比较简单有效。4.4节中对[45],[28],[58]中使用的其他消融方法进行了比较研究,证明了我们方法的优越性。

特征丰富模块

动机

现有的少镜头分割框架[54],[33],[15],[45],[28],[30],[35],[5]使用屏蔽全局平均池,或者在进一步处理之前从支持图像中提取类向量。但是,由于查询目标的面积可能比支持样本大得多或小得多,对支持图像进行全局池会导致空间信息不一致。因此,使用全局池支持特征直接匹配查询特征的每个像素并不理想。
一个自然的替代方案是添加PPM[60]或ASPP[4],以向该功能提供多层次空间信息。PPM和ASPP帮助baseline模型产生更好的性能(在我们后面的实验中演示)。但这两个模块的不优之处在于:1)它们提供了合并特征的空间信息,而没有在每个尺度内进行具体的细化处理;2)忽略了不同尺度之间的层次关系。
为了缓解这些问题,我们解开了多尺度结构,并提出了特征丰富模块(FEM) 1)水平地交互查询特征与每个尺度中的支持特征和先验掩码,2)垂直利用层次关系,通过自顶向下的信息路径,从精细特征中提取必要信息,丰富粗特征图。水平和垂直优化后,收集不同尺度的特征,形成新的查询特征。特征丰富模块的细节如下。

模块结构

如图3所示,特征充实模块(FEM)将查询特征、先验掩码和支持特征作为输入。它从支持特征输出具有丰富信息的精炼查询特征。丰富过程可分为三个子过程1) Inter-Source Enrichment-----首先对不同规模的投影进行输入,然后在每个规模中独立地将查询特性与支持特性和优先掩码进行交互2)跨尺度交互,在不同尺度的合并查询支持特征之间选择性地传递基本信息;3)信息集中,融合不同尺度的特征,最终生成精细化的查询特征。图4显示了一个具有四个尺度和尺度间相互作用自上而下路径的FEM实例。

Inter-source Enrichment FEM,B= [B1, B2,…]Bn) 表示平均池的不同空间大小。它们的顺序是递减的B1 > B2>…> Bn。输入查询特征XQ∈Rh×w×c首先经过自适应平均池处理,生成n个子查询特征XFEMQ= [X1Q, X2Q,…],n个不同的空间尺寸使得全局平均池支持特征xs∈R1×1×c扩展到不同的特征map XFEMS= [X1S, X2S,…], XnS](XiS∈RBi×Bi×c), 先验YQ∈Rh×w×1is相应调整为YF EMQ= [Y1Q, Y2Q,…,YnQ] (YiQ∈RBi xBi×1)。
则,循环i∈{1,2,…, n},我们将XiQ,XSi
,YQi连接起来,并对每个连接起来的特征进行卷积处理,生成合并查询特征XQmi∈RBi×Bi×c
【论文阅读】Prior Guided Feature Enrichment Network for Few-Shot Segmentation
F1×1代表生成c= 256输出通道的合并特性的1×1卷积。
Inter-scale Interaction值得注意的是,在向下采样的特征图中可能不存在微小物体。自适应地将信息从较细的特征传递到较粗的特征的自上而下路径有助于在我们的特征丰富模块中建立层次关系。现在不仅是每个尺度(水平)的查询和支持特性之间的交互,而且是不同尺度(垂直)的合并特性之间的交互,这有利于整体性能。
图4表示跨尺度合并模块m,该模块在不同尺度之间进行交互,有选择地将辅助特征的有用信息传递给主特征,生成精炼的特征XiQ,new。这个过程可以写成
【论文阅读】Prior Guided Feature Enrichment Network for Few-Shot Segmentation
其中 是主要特征 是第i个scaleBi的辅助特征。例如,在具有尺度间相互作用自上而下路径的FEM中,较细特征(辅助)Xi−1q,m需要向粗特征(主要)XiQ,m(Bi−1> Bi, i>2)提供额外的信息。在这种情况下, 。其他跨尺度交互的替代方案包括自底向上路径,该路径用来自粗特性(辅助特性)的信息来丰富细特性(主特性),以及双向变体,即自顶向下路径接着自底向上路径,以及自底向上路径接着自顶向下路径。自上而下的路径在4.3.1节中显示了其优越性。
跨尺度合并模块M的具体结构如图5所示。我们首先将辅助特征的大小调整为与主要特征相同的空间大小。然后利用1×1卷积α从主特征条件下的辅助特征中提取有用信息。随后使用两个3×3卷积β完成交互并输出细化后的特性。尺度间合并模块中的残留链接用于保持输出特征中主特征的完整性。对于那些没有辅助功能的功能(例如,第一个合并功能x1q,最小自顶向下路径和最后一个合并功能xnq,最小自底向上路径),我们简单地忽略在m中与辅助功能的连接-精炼的功能只由主要功能产生。
Information Concentration经过尺度间交互,得到n个精确的 feature map XiQ,new, i∈{1,2,…n}。最后输出查询feature xq,new∈Rh×w×c是由n个精细化feature maps XiQ的插值和拼接形成,new∈Rh×w×c由1×1 卷积F1×1生成

没有FEM (B1=h=w)的基线模型的可视化说明如图6所示。为了更好地丰富特征,我们添加了中间监督,将分类头(图7(b))附加到每个新xiq中。
综上所述,通过将池支持特征和先验掩码结合到不同空间尺寸的查询特征中,模型学习自适应地丰富查询特征,其信息来自每个位置的支持特征,在先验掩码的指导和ground-truth的监督下。此外,垂直尺度间的相互作用用辅助特征提供的条件信息补充主要特征。因此,与其他特性增强设计(例如PPM [60], ASPP[4]和GAU[53])相比,FEM在基线上获得了更大的性能增益。4.3节中的实验提供了更多细节。

先验引导特征丰富网络

模型描述

基于所提出的先验生成方法和特征丰富模块(FEM),我们提出了如图3所示的先验引导特征富集网络(PFENet)。ImageNet[32]预训练的CNN由支持和查询图像共享来提取特征。提取的中间层支持和查询特征通过1×1卷积处理,将通道数减少到256。在特征提取和信道缩减之后,特征富集模块(FEM)利用支持特征和先验掩码来丰富查询特征。在FEM的输出特征上,我们应用了一个卷积块(图7(a)),然后是一个分类头来得到最终的预测结果。分类头由一个3×3卷积和1×1卷积结合Softmax函数组成,如图7(b)所示。对于所有的骨干网,我们使用conv3x和conv4x最后一层的输出作为中层特征m,通过级联生成查询和支持特征m,使用conv5x最后一层的输出作为高层特征h,生成先验掩码。在5镜头设置中,我们只是在与查询特性连接之前将5个池支持特性作为新支持特性的平均值。同样地,通过对一个具有不同支持特征的查询特征产生的5个先验掩码进行平均,也得到了FEM中拼接前的最后一个先验掩码。

损失函数

我们选择交叉熵损失作为我们的损失函数。如图3.3.2节和图3所示,对于n个不同空间尺寸的FEM,在xiq,new (i∈{1,2,…, n})生成n个lossesLi1 (i∈{1,2,…n})。PFENet的最终预测产生第二个损耗L2。总损耗是Li1和L2的加权和
【论文阅读】Prior Guided Feature Enrichment Network for Few-Shot Segmentation

其中σ用于平衡中间监管的效果。在所有的实验中,我们都根据经验将σ设置为1.0。

Experiments

实施细节

数据集我们使用PASCAL-5i[33]和COCO[21]数据集进行评价。PASCAL-5iis由PASCAL VOC 2012[6]和SDS[12]数据集的扩展注释组成。将20个类平均分成4个子集,每个包含5个类。遵循OSLSM[33],我们在每个测试中随机抽样1000个查询支持对。在[28]之后,我们还通过将80个类分成4个子集来评估我们的COCO模型。因此,每一层有20个类,文件夹中包含的类索引集记为{4x−3 +i},其中x∈{1,2,…,20},i∈{0、1、2、3}。注意,COCO验证集包含40137张图像(80个类),比PASCAL5i中的图像多得多。因此,在之前的工作中使用的1000个随机抽样查询支持对不足以在20个测试类上产生可靠的测试结果。相反,我们在每个fold的评估过程中随机抽样20,000个查询支持对,使结果比测试更稳定在以前的工作中使用的1000个查询支持对。稳定性统计数据见第4.7节。对于PASCAL-5i和 COCO,当在一个fold上测试模型时,我们使用其他三个fold来训练模型进行交叉验证。我们取不同随机种子的5个测试结果的平均值进行比较,如表9和表10所示。

实验设置我们的框架是在PyTorch上构建的。我们选择VGG-16 [36], ResNet-50[14]和ResNet101[14]作为我们的骨干,以与其他方法进行比较。我们使用的ResNet是之前工作[28],[54],[15]中使用的扩展版本。我们使用的VGG是原始版本[36]。所有骨干网都用ImageNet[32]预训练权值初始化。其他层由PyTorch的默认设置初始化。我们使用SGD作为我们的优化器。动量和重量衰减分别设置为0.9和0.0001。我们采用’ poly '策略[3],通过乘以 来衰减学习率,幂等于0.9。
我们的模型在PASCAL-5ifor上训练了200个纪元,学习率为0.0025,批量大小为4。在COCO上的实验中,模型训练了50个epoch,学习率为0.005,批量大小为8。骨干网参数未更新。在训练过程中,对样本进行镜面操作和-10到10度的随机旋转。最后,我们从处理后的图像中随机抽取crop473×473 patch作为训练样本。在评估过程中,每个输入样本通过填充零调整为训练patch的大小,但相对于其原始宽高比,然后将预测的大小调整回原始标签的大小。最后,我们直接输出单尺度结果,不需要微调和任何额外的后处理(如多尺度测试和DenseCRF[18])。我们的实验是在NVIDIA Titan V GPU和Intel Xeon CPU E5-2620 v4 @ 2.10GHz上进行的。代码和经过训练的模型将公开。
评价指标在[54],[28]之后,我们采用mIoU作为消融研究的主要评价指标,因为mIoU类比[54]中提到的前景背景IoU (FBIoU)更合理。公式如下: mou = ,其中C是每个fold中的类数(例如,COCO的C= 20, PASCAL-5i的C= 5),IOUi是类i的交并。我们也展示了FB-IoU的结果,以与其他方法进行比较。对于每个fold上的FBI-IOU计算,只考虑前景和背景(C= 2)。我们取所有fold结果的平均值作为最终mIoU/ FB-IOU。

结果

如表1、2和3所示,我们在三个主干VGG-16、ResNet-50和ResNet-101上构建了我们的模型,并分别报告了mIoU/FB-IoU结果。通过结合先验掩模和有限元方法,我们的模型显著优于以往的方法,在pascal -5和COCO数据集上都达到了新的水平。在mIoU等级上,PFENet甚至可以超过其他方法在COCO上的表现。相对于PANet,我们在FB-IoU上的性能优势相对于COCO上的mIoU类来说相对较小,因为FB-IoU偏向于背景和类,这些类覆盖了很大一部分前景区域。值得注意的是,我们的PFENet在可学习参数最少的情况下取得了最好的性能(基于VGG的模型为10.4M,基于ResNet的模型为10.8M)。定性结果如图8所示。

FEM的消融实验

提出的特征充实模块通过融合不同尺度的支持特征自适应地丰富查询特征,并利用尺度间路径将有用信息从辅助特征垂直传递到主要特征。为了验证有限元法的有效性,我们首先比较了不同尺度间相互作用的策略。它表明,自顶向下的信息路径在不影响模型大小的情况下给基线带来了相当好的性能增益。然后进行了不同设计的源间富集试验,并与HRNet[44]、ASPP[4]和PPM[60]等特征富集设计进行了比较。我们还比较了目前最先进的少镜头分割方法PGNet[53]中使用的Graph Attention Unit (GAU)来细化查询特征。在这些实验中,由于我们的输入图像被调整为473×473,因此模块(如FEM、GAU)的输入特征图的空间大小为60×60。

尺度间互动策略

在本节中,我们展示了不同垂直尺度间相互作用策略的实验结果和分析,以说明我们设计有限元的基本原理。如3.3节所述,尺度间相互作用有四种选择:自上而下路径(TD)、自下而上路径(BU)、自上而下+自下而上路径(TD+BU)和自下而上+自上而下路径(BU+TD)。我们的实验结果如表4所示,TD和TD+BU帮助基本有限元结构在没有(W/O)信息路径的情况下取得了比BU和BU+TD更好的结果。TD+BU模型包含的可学习参数(16.0M)比TD (10.8M)更多,但性能相当。因此,我们选择TD作为尺度间相互作用。
这些实验证明,使用较细特征(辅助)为粗特征(主)提供附加信息比使用粗特征(辅助)细化较细特征(主)更有效。这是因为如果目标对象在小范围内消失,那么在信息集中的后期阶段,粗糙的特征不足以对查询类进行定位。与一般的语义切分中上下文信息是获得良好性能的关键不同,少镜头切分中查询信息的表示和获取方式更为重要。我们设计FEM的动机是匹配不同尺度的查询和支持特性,以解决查询和支持样本之间的空间不一致性。因此,没有目标信息的下采样粗查询特征对于提高最终预测质量的作用不大,TD和BU的对比实验表明。

与其他设计比较

PPM[60]和ASPP[4]是通过提供多分辨率上下文进行语义分割的两个流行的特性充实模块,而HRNet[44],[39],[38]为分割任务提供了一个新的特性充实模块——它在语义分割基准上实现了SOTA结果。在少镜头分割中,在PGNet[53]中使用Graph Attention Unit (GAU)来利用上下文信息细化查询特征。我们注意到,提出的FEM模块产生了更好的少镜头分割性能。FEM带来的改进来自于:1)不同空间尺寸查询和支持特征的融合(源间富集),鼓励以下卷积块在不同空间分辨率下独立处理连接的特征,有利于预测不同尺度的查询目标;2)尺度间的相互作用,选择性地将辅助特征的有用信息传递给主特征。在表5中,没有垂直自顶向下的信息路径(用WO标记)的模型会产生更差的结果。
我们用膨胀率{1,6,12,18}实现了ASPP,它取得了接近PPM的结果。对于小镜头分割[53],扩张卷积的分割效果不如自适应平均池算法。下面我们首先比较PPM和GAU,因为它们都使用自适应池提供多尺度信息。然后,我们对HRNet提出的模块进行了讨论。
金字塔汇集模块(PPM) 如表5所示,空间尺寸为{60,30,15,8}的模型比基线(空间尺寸为{60}的原始尺寸)和用PPM和ASPP替代FEM的模型取得了更好的性能。PSPNet[60]的实验表明,空间尺寸为{6,3,2,1}的金字塔池化模块(PPM)的性能最好。当小空间尺寸应用于FEM时,它仍然优于PPM。但是小的空间尺寸在FEM中不是最优的,因为集合到空间尺寸(如{6,3,2,1})的特征对于查询和支持特征的交互和融合过于粗糙。类似地,对于空间尺寸较小的4,使用{60,30,15,8,4}的FEM的结果较差与使用空间尺寸为{60,30,15,8}的模型相比,性能更好。因此,我们选择{60,30,15,8}作为FEM源间富集的特征尺度。
GAU (Graph Attention Unit)
GAU[53]利用图注意机制,在每个尺度上建立查询与支持特征之间的元素对元素的对应关系。利用GAU对支持特征的像素进行加权,新支持特征为原支持特征的加权和。然后,将新的支持特性与查询特性连接起来进行进一步处理。
我们直接在基线上用GAU替换FEM,并保留其他设置以进行公平的比较。GAU是用作者提供的代码实现的。我们的GAU基准在1投和5投中mIoU分别达到55.4和56.1。注意到GAU中的原始特征尺度是{60,8,4},我们也使用有限元中使用的尺度{60,30,15,8}(表示为GAU+)来实现它。GAU+的mIoU小于GAU(1发54.9,5发55.4)。GAU也通过自适应池获取多层次语义信息形成金字塔结构,它的竞争力不如拟议的FEM(一拍59.2,五拍60.4),因为它错过了层次间的尺度关系,这种关系自适应地提供从其他级别提取的信息,以帮助改进合并的特征。

HRNet (High-Resolution Network, HRNet)
通过在所有网络中保持高分辨率特征,并逐渐融合多尺度特征,丰富分辨率,在许多视觉任务中显示出其优越性特性。本文提出的有限元方法可以看作是HRB的一种变体,用于解决少镜头分割问题。FEM的源间富集类似于HRB中的多分辨率并行卷积,如图9所示。而有限元中的尺度间相互作用是将条件信息从大尺度传递到小尺度,而非各尺度间的密集相互作用。
为了比较,我们实验将PFENet中的FEM替换为HRB,并在HRB中生成与FEM中相同比例尺的特征图({60,30,15,8})。结果如表6所示。将HRB直接应用于基线(基线+ HRB)确实比PPM和ASPP产生更好的效果。在没有选择的情况下,密集传递信息会造成目标特征的冗余,并产生次优结果。我们的解决方案是,在HRB的多分辨率融合阶段,采用所提出的跨尺度融合模块从辅助特征中提取必要信息,如图10所示。条件特征选择模型(HRB-Cond)具有较好的性能。
如表4所示,将特性从粗级传递到细级(按照自底向上的顺序)会对尺度间的交互产生不利影响。因此,我们删除HRB中所有自底向上的路径,只允许自顶向下的路径(记为HRB- td)。HRB- td的性能优于HRB也就不足为奇了,而加入条件特征选择(HRBTD-Cond)则带来了进一步的改进。
HRB的最佳变体(即HRB- td - cond)的结果与FEM相当,但它带来了更多可学习的参数(7.5M)。因此,对于少拍段提出的尺度间融合模块的条件特征选择机制是提高多分辨率结构性能的关键。

先验消融研究

表6的实验结果表明,先前的w/和wo/ FEM模型得到了改进。余弦相似度是处理少镜头分割的常用方法。PANet[45]使用余弦相似度来生成中间和最终预测掩模;SG-One[58]和[28]都利用了来自掩码池支持的余弦相似掩码功能提供额外的指导。然而,这些方法忽略了两个因素。首先,掩码生成过程包含可训练组件,因此生成的掩码在训练过程中偏向基类。
其次,由于在池化操作中,支持特征中最相关的信息可能被不相关的信息淹没,导致了歧视损失。例如,“猫狗”的区分区域主要集中在头部周围。主体具有相似的特征(如尾部四足动物),使得掩码全局平均池化产生的表示失去了支持中包含的鉴别信息样本。
在下面,我们首先使用固定的高级特征,并从相似矩阵中取最大像素对应值,展示了我们之前生成的基本原理。然后与其他方法进行比较,以证明我们的策略的优越性。我们还包括了对ImageNet[32]数据集外的不可见对象的泛化能力的分析,进一步表明了我们方法的鲁棒性。

特征选择

在我们的设计中,我们选择固定的高级特征作为上一代的特征,因为它可以提供足够的语义信息,准确的分割而不牺牲泛化能力。提出的前代是独立于训练过程的。所以它不会导致泛化能力的丧失。先验掩模在评估过程中为可见和不可见数据提供了来自高阶特征的无偏差先验信息,而可学习特征映射(如[45],[58],[28])产生的掩模在训练过程中受到参数学习的影响。因此,在推断过程中,对训练类的偏爱是不可避免的。为了显示我们选择的优越性,我们对不同的特征源进行了实验,以生成先验掩模。
定量分析表7显示,由可学习的或固定的中间层特征(priorlor PriorF M)生成的掩码比我们的PriorF H改进得更少,因为中间层特征在揭示查询和支持特征之间的语义对应方面效率更低。然而,可学习的高级特征(PriorLH)得到的掩模结果甚至比我们的基线更糟糕,因为可学习的高级特征严重地超出了基类的适应范围:该模型在训练过程中依赖于可学习的高级特征产生的准确的先验掩模来定位基类的目标区域,因此在推理过程中很难推广到之前未发现的类。
定性分析生成的先前掩码如图11所示。可学习的高级特征映射(L-H)生成的不可见类掩模不能清楚地揭示潜在的感兴趣区域,而使用固定的高级特征映射(F-H)保持目标区域的总体完整性。相对于高阶特征,中等阶特征(L-M和F-M)产生的先验掩模更偏向于背景区域。来帮助解释定量结果和图11,嵌入可视化如图12所示,其中1000个基类样本(灰色)和1000个新类样本(绿色、红色、紫色、蓝色和橙色)由主干和t-SNE[42]处理。基于基类和新类簇之间的重叠区域,我们得出了两个结论。首先,图12(a)和©中的中层特征比图12(b)和(d)中的高层特征的识别能力更弱。其次,学习性特征失去了(a)和(b)中的识别能力,因为新类的嵌入倾向于基类的嵌入。这不利于对看不见的类进行归纳。

差异能力

在我们的模型中,前面的掩码作为每个查询图像的像素指示符。如Eq.(3)所示,从查询与支持特征的像素相似性中取最大对应值,表明支持图像中至少有一个像素/区域与高先验值的查询像素具有密切的语义关系。揭示查询图像上的大多数潜在目标是有益的。其他的选择包括使用掩码池支持特性来生成相似度掩码[45],[58],[28],并从像素相似度中取平均值而不是最大值。
为了验证我们的设计的有效性,我们训练了表7中的另外两个模型:一个是通过平均相似度(prior - af H)生成的先验掩模,另一个是先验掩码是由掩码池支持特征(prior - pf H)获得的,它们的性能都不如所提出的策略(PriorF H)。
我们注意到以下事实。我们之前的生成方法从大小为hw×hwto的相似矩阵中取最大值,生成sizeh×w的先验掩码(Eq。(3)),相比于Prior-P从sizehw×1的相似矩阵形成掩码,由于两种掩码生成方法的计算复杂度都比其他网络方法小得多,因此速度差异较小。基于VGG-16基线的PriorF H、PriorPF - af H、PriorPF Hand PriorPF - fwf H的FPS值都在23.1 FPS左右,因为输出特征只包含512个通道。基于2048通道输出特征的ResNet-50基线,PriorF H、PriorPF - af H、PriorPF Hand PriorPF - fwf H的FPS值分别为16.5、16.5、17.4和17.0

与其他设计比较

其他一些方法也使用相似掩码作为改进性能的中间指导(例如[45],[58],[28])。它们的掩码由可学习掩码池支持和可学习查询特性获得,然后使用该特性进一步处理做出最终预测。这种方法的策略类似于Prior-PLM。
在[28]中,由于特征的良好识别能力,使得激活的前景高而其他地方低。我们遵循方程式。(3)-(6)在[28]中实现特征权重机制,对查询和支持的特征都使用在先验掩码。在[28]中,权重机制直接应用于可学习特征,我们在模型中提供了两种选择:可学习的中高级特征。但是,它在priorfwland和priorfwlh中并没有表现得更好。prior - fwf的结果证明了我们的特征选择策略(固定高级特征)对之前生成的有效性。我们的特征选择策略是[28]权重机制的补充。

对完全不可见物体的概化

ImageNet[32]中包含了许多PASCAL-5iand COCO的对象,用于脊柱预训练。对于那些之前未见过的目标,主干仍然提供强大的语义线索,以帮助识别查询图像中的目标区域,支持图像提供的信息。ImageNet中不包含PASCAL-5iis类’ Person ‘,带有先前掩码的基线达到15.81 IoU,比没有先前掩码的基线(14.38)要好。然而,类’ Person ‘在ImageNet示例中并不少见,即使它们的标签不是’ Person '。
为了进一步证明我们对完全看不见的对象的泛化能力,我们在最近提出的FSS-1000[19]数据集上进行了实验,其中前景IoU作为评价指标。FSS-1000由1000个类组成,其中486个类没有包含在任何其他现有的数据集[19]1中。我们使用ResNet-50主干网对模型进行100个时代的训练,批量为16,初始学习率为0.01,然后在未知类上进行测试。为测试而取样的查询支持对的数量等于未见样本数量的5倍。
如表8所示,使用先验掩码的基线在1和5shot前景IoU评估中分别达到80.8和81.4,在两种设置中都比vanilla基线前景IoU (79.7和80.1)高出1.0以上。如图13所示,即使ImageNet预先训练的骨干没有看到目标区域,目标区域仍然可以在之前的掩模中突出显示。

骨干训练

在OSLSM[33]中,通过训练两个骨干网络来实现小样本分割。然而,在最近的工作中,骨干参数[54],[45]被保留,以防止过拟合。目前还没有实验证明骨干训练有什么效果。为了更好地理解骨干如何影响我们的方法,用骨干中的所有参数训练的四个模型的结果显示在表6的最后四行。
由于训练类的过拟合,额外的可训练骨干参数导致显著的性能下降。此外,由于需要额外的参数更新,主干训练将每个批次的训练时间增加了近一倍。然而,它并不影响推理的速度。结果表明,有限元和先验掩模对具有可训练骨架的模型的改善作用不如具有固定骨架的模型显著。我们注意到,由于整个主干是可训练的,所以本节中的前一个掩模是由可学习的高级特征产生的。如表7所示,可学习的高级特征会使固定主干的性能变差,但它们对可训练主干是有益的。在5-shot评估中,与FEM相比,先验产生更高的性能增益,因为先验是5个支持样本的平均值,为查询图像提供比1shot更准确的先验掩模,以对抗过拟合。最后,结合FEM和先验的模型仍然优于基线模型,这证明了我们所提出的设计即使在所有可学习参数的情况下仍然具有鲁棒性。

模型的效率

参数骨干网的参数是固定的,如[45],[54],[53]。基线模型中的四个部分是可学习的:两个1×1卷积,用于降低查询和支持特征的维数,FEM,一个卷积块和一个分类头。如表6所示,我们的最佳模型(Baseline + FEM + Prior)只有10.8M的可训练参数,比表1中其他方法少得多。上一代没有给模型带来额外的参数,空间尺寸{60,30,15,8}的FEM只给基线(4.5M→10.8M)带来6.3M额外的可学习参数。为了证明FEM带来的改进并不是由于更多的可学习参数,我们展示了具有FEM‡的模型的结果,其参数更多(12.9M),但其结果比FEM (10.8M)更差。
速度在NVIDIA Titan V GPU上,基于ResNet-50的PFENet在1镜头和5镜头设置下分别获得了15.9和5.1 FPS的最佳性能。在评估期间,测试图像被调整为473×473。如表6所示,FEM对推理速度的影响不大(从17.7 FPS到17.3 FPS)。尽管之前提出的生成过程将基准帧数从17.7降至16.5 FPS,但最终模型仍然具有15+ FPS的效率。请注意,为了公平比较,我们在这些实验中包含了ResNet最后一块的处理时间。

结果稳定性分析

正如实现细节中提到的,在PASCAL-5iand COCO上评估1,000个查询支持对可能会导致结果不稳定。在本节中,我们通过对不同支撑样品进行多次实验来分析结果的稳定性。
PASCAL-5i表9中的结果显示,在1-shot和5-shot的情况下,标准差的值都低于0.5,这表明我们在对1000对进行评估的情况下,对PASCAL-5iResults结果的稳定性。
COCO然而,如表10所示,1,000对并不足以提供可靠的比较结果,因为COCO验证集包含40137张图像,1,000对甚至不能覆盖整个20个测试类。基于这一观察,我们将随机抽样20,000对查询支持对,对模型进行四次评估,表10中的结果表明20,000对查询支持对比1,000对查询支持对带来更稳定的结果。

扩展到零样本分割

零样本学习的目标是学习即使没有给出标记数据也能保持鲁棒性的模型。这是“小样本学习”的一个极端例子。为了进一步证明我们提出的PFENet在极端情况下的鲁棒性,我们修改了我们的模型,将池支持特征替换为类标签嵌入。注意,我们之前提出的生成方法需要支持特性。因此先验是不适用的,我们只验证了在基线上的FEM与VGG-16骨干在零样本设置。
结构变化Word2Vec[27]和FastText[25]的嵌入分别在谷歌News[46]和Common Crawl[26]上进行训练。Word2Vec和FastText嵌入的连接特性直接取代了原始模型中的池支持特性,而不进行规范化。因此,在模型结构上的结构变化是第一个可学习的1×1卷积,以减少支持特征通道。
它的输入通道数在原始的小样本模型(VGG-16)中是768(512+256)在零样本模型中被更新到600(300+300)
结果如表11所示,我们的基本结构在没有支持样本的未见类上实现了53.2类mIoU,甚至在OSLSM[33]的few-shot设置下,在pascal - 5ion上有5个支持样本的一些模型的表现都更好。此外,拟议的FEM处理了零射击设置中的空间不一致性,并将1.0点mIoU改进(从53.2到54.2)到基线。

总结

提出了基于先验生成方法和特征丰富模块的先验引导特征丰富网络(PFENet)。前一种生成方法通过在预先训练的高级特征上利用余弦相似度计算来提高性能。前面的掩码鼓励模型在不丧失泛化能力的情况下更好地本地化查询目标。通过中间监督和条件特征选择,自适应地合并查询和支持多尺度特征,有助于解决空间不一致性问题。通过这些模块,PFENet在PASCAL-5i和COCO数据集上取得了最新的结果,而没有增加太多的模型尺寸和显著的效率损失。在零样本场景下的实验进一步证明了我们工作的稳健性。未来可能的工作包括将这两种设计扩展到少样本目标检测和少样本实例分割。

上一篇:One-shot learning


下一篇:SharePoint 2013 开发——SharePoint APP介绍