文章目录
[翻译] Patch-based Output Space Adversarial Learning for Joint Optic Disc and Cup Segmentation 基于patch的输出空间对抗性学习用于联合视盘和视杯分割
摘要
~~~~~~~ 青光眼是不可逆失明的主要原因。从眼底图像中准确分割视盘和视杯有利于青光眼的筛查和诊断。最近,卷积神经网络在联合OD和OC分割方面显示出有希望的进展。然而,受不同数据集之间的domain shift的影响,深层网络在跨不同扫描器和机构的推广中受到严重阻碍。本文提出了一种新的基于patch的输出空间对抗学习框架(pOSAL),用于从不同的眼底图像数据集中联合鲁棒地分割OD和OC。我们首先设计了一个轻量级和高效的分割网络作为主干。考虑到OD和OC的特殊形态,提出了一种新的形态感知分割损失来指导网络生成准确平滑的分割。然后,我们的pOSAL框架通过鼓励目标域中的分割与源域相似,利用无监督的域适应来解决域转移的挑战。由于基于全景分割的对抗损失不足以驱动网络捕捉分割细节,我们进一步以基于patch的方式设计pOSAL,以实现对本地分割细节的细粒度判别。我们广泛评估了我们的pOSAL框架,并证明了它在三个公共视网膜眼底图像数据集(即Drishti-GS、RIM-ONE-r3和REFUGE)上提高分割性能的有效性。此外,我们的pOSAL框架在MICCAI 2018视网膜眼底青光眼挑战赛中实现了OD和OC分割任务的第一名。
~~~~~~~ 索引术语—视盘分割、视杯分割、深度学习、领域适应、对抗学习
图1。由于域转移导致的分割退化。D1域代表ORIGA数据集,而D2域代表Drishti-GS数据集。在“预测”列中,黑色和灰色分别代表视杯和视盘分割。当我们使用在D1训练的M-Net [1]在D2进行测试时,这两个数字是OC和OD分割结果的骰子系数,表明OC的骰子系数从0.87下降到0.62,OD的骰子系数从0.95下降到0.73。我们的方法克服了这个问题;虽然它是在D1训练的,但是当在D2使用它时,它仍然可以获得分别为0.86和0.95的高骰子系数。
1. 介绍
~~~~~~~ 青光眼是一种慢性疾病,会损害视神经,导致不可逆的视力丧失[2]。青光眼的早期筛查和检测有利于保护患者的视力。目前,分析视神经乳头和视网膜神经纤维层是一种实用的青光眼检测方法。然而,这种分析主要是主观的,经常受到观察者内部和观察者之间高度差异的影响[3]。随着光学眼底成像的最新进展,基于视盘和视杯形态以及视盘杯比的客观定量青光眼评估变得可用[2]。CDR是垂直杯直径与垂直盘直径的比值。较大的CDR值通常表明青光眼的高风险。手动获取这些测量值非常耗时。通过自动解决方案从眼底图像中准确分割OD和OC将促进大规模青光眼筛查[1]。
~~~~~~~ 随着深度学习[1]、[4]、[5]的发展,最近报道了OD和OC分割的显著性能。假设训练样本和测试样本具有相同的外观分布,由大量像素级标注组成的训练数据集帮助深层网络学习测试数据集上的分割。然而,网络很难在新的数据集上获得良好的分割性能。例如,最先进的网络,如M-Net [1],在其特定的测试数据集,即ORIGA [6]上表现良好,但在其他一些数据集上推广较差;参见图1。域偏移是指不同数据集之间外观分布的差异,是深层网络泛化能力差的主要原因[7]–[9]。事实上,各种视网膜眼底图像数据集之间的域偏移是非常常见的。许多公共视网膜图像数据集,例如Drishti-GS [10]、RIM-ONE-r3 [11]和REFUGE,都是在不同扫描仪、图像分辨率、光源强度和参数设置导致明显外观差异的情况下获得的(图1)。为了增强深度网络的鲁棒性,非常需要克服域转移。
~~~~~~~ 为了减少由域转移引起的性能下降,域适应方法[8]、[12]被开发来概括在源域中训练的深层网络,以在具有不同外观的一些其他目标域中更有效地工作。一个普通的解决方案是用来自目标域的大量注释样本提供的全面监督来微调分割网络。然而,在目标域中准备额外的注释是非常耗时和昂贵的,并且经常受到观察者间差异的影响;此外,这种解决方案对于大规模青光眼筛查是不切实际的。因此,在真实的临床场景中,非常需要一种不需要额外注释的无监督领域自适应方法。此外,利用跨不同域共享的知识可以帮助深度网络在各种成像条件下保持其性能。对于这种联合OD和OC分割任务,输出空间中的空间结构和形态结构(即分割掩模)由不同的数据集共享,因此有利于掩模预测。例如,OC总是包含在OD区域内,而OC和OD都具有类似椭圆的形状。这种空间相关性信息对于域自适应是至关重要的,但是通常被现有的基于深度网络的分割方法所忽略。
~~~~~~~ 在这项工作中,我们旨在通过引入一种新的基于patch的输出空间对抗学习框架(pOSAL)来联合分割来自不同域的视网膜眼底图像中的OD和OC。作为框架中的核心工作,轻量级网络架构的有效性和无监督的域适应的域不变性有助于我们希望的性能。我们的框架探索带标注的源域图像和未标注的目标域图像,以减少目标域上的性能下降。我们首先开发了一个具有代表性的分割网络,该网络配备了形态学感知分割损失,以产生引人注目的分割。我们的分割网络有效地结合了DeepLabv3+ [13]和深度方向可分离卷积网络MobileNetV2 [14]的设计,在提取多尺度区分上下文特征和计算负担之间实现了良好的平衡。所提出的形态学感知分割损失进一步引导网络捕获掩模平滑先验,从而改善分割。为了克服域转移的挑战,受[15]的启发,我们通过利用分割掩模的空间结构和形态结构来采用输出空间对抗学习。具体地说,我们附加一个判别器网络来从源域的标签分布中学习抽象的空间和形状信息,然后使用对抗性学习过程来鼓励分割网络在共享的输出空间(例如,相似的空间布局和结构上下文)中为源域和目标域中的图像生成一致的预测。由于基于全景分割的对抗方案在获取分割细节方面很弱,我们设计了一个逐块鉴别器来获取输出空间的局部统计信息,并引导分割网络关注图像块中的局部结构相似性。我们广泛评估了我们在三个公共眼底图像数据集(Drishti-GS、RIM-ONE-r3和HERIVE)上联合OD和OC分割的pOSAL框架。pOSAL框架实现了最先进的结果,通过提出的基于patch的输出空间对抗学习带来了显著的改进。
~~~~~~~ 我们的主要贡献总结如下:
~~~~~~~ (1)在不同的视网膜眼底图像数据集上,我们开发了无监督域自适应联合OD和OC分割。提出的新pOSAL框架支持基于patch的输出空间域自适应,以减少目标数据集分割性能的下降。
~~~~~~~ (2)我们设计了一个有效的分割网络,该网络配备了一个新的形态学感知的分割损失,以产生合理的OD和OC分割结果。形态学分割损失能够引导网络捕获掩模平滑先验以进行精确分割。
~~~~~~~ (3)我们在三个公共视网膜眼底图像数据集上进行了广泛的实验,以验证pOSAL框架的有效性。此外,我们在MICCAI 2018视网膜眼底青光眼挑战赛的OD和OC分割任务中获得了第一名。本文的其余部分组织如下。我们在第二节回顾了相关的技术,并在第三节阐述了pOSAL框架。实验和结果见第四节。我们在第五节进一步讨论我们的方法,并在第六节得出结论。
2. 相关工作
~~~~~~~ 视网膜眼底图像的OD和OC分割并不简单,并且已经独立研究了多年。对于OD分割,早期的工作采用了人工设计的视觉特征,包括图像梯度信息[16],来自立体图像对的特征[17],局部纹理特征[18]和基于超级像素的分类器[19]。考虑到对比度较低的边界,OC分割比OD分割更具挑战性[1]。这项任务还研究了人工设计的特征[18]–[23]。最近,开发了一些用于联合OD和OC分割的工作。郑等[24]设计了图割框架。在[25]中,结构约束被用于联合OD和OC分割。
~~~~~~~ 卷积神经网络(CNNs)在视网膜眼底图像分割方面表现出显著的性能[1],[4],[5],[26]–[ 29],并且优于传统的基于人工设计的方法[30]。有效的网络架构设计是这些基于深度学习的方法的重点。例如,Maninis等人[4]提出了结合多层次特征分割血管和视盘的DRIU网络。一个盘感知网络[28]被设计用于青光眼筛查,通过网络中不同特征流的集合。ResU-net在[5]中提出,在ground truth和分割掩码之间有一个对抗模块,以改进最终的分割。傅等人[1]在U-net的基础上,开发了联合OD和OC分割的M-net。尽管前景看好,但当训练和测试数据集来自不同领域时,基于CNN的方法往往会退化。我们的输出空间对抗性学习框架有助于解决这一领转移的挑战,并提高不同测试域的分割性能。
~~~~~~~ 最近,在医学图像分析[8],[9],[31]–[ 33]领域探索了域适应技术。以前的方法[8],[9]通过对抗学习进行潜在特征对齐,以探索源域和目标域上的共享特征空间。域自适应的另一个切入点是将图像从目标域转移到源域,然后将训练好的网络应用于转移的图像[32]、[34]、[35]。在这些方法中,Cycle-GAN [36]是一种在不同域翻译图像的流行技术。这些方法的关键特征是在不使用成对数据的情况下生成另一个领域的真实风格的图像。需要额外的约束来指导这种无监督的风格转换过程。例如,Zhang等人[34]使用堆叠在cycle-GAN后面的两个分割网络作为对生成器的额外监督,以增强形状一致性。在[35]中,引入了一种语义感知的对抗性学习,以防止图像翻译过程中的语义失真。在[32]中,开发了一个任务驱动的生成对抗网络来加强分割的一致性。然而,这些方法忽略了对于分割任务,不同域的标签空间(输出空间)通常在空间结构和几何方面高度相关的特性。因此,我们使用基于patch的输出空间对抗学习来进行联合OD和OC分割的域适应,而不是探索共享特征空间或翻译输入图像。
3. 方法
~~~~~~~
图2概述了用于从视网膜眼底图像联合OD和OC分割的pOSAL框架;我们的框架有三个模块:一个ROI提取网络E,一个分割网络S,和一个patch级的判别器D。由于OD相比于整个图像的面积比很小,ROI区域,
I
c
S
I_{cS}
IcS和
I
c
T
I_{cT}
IcT,分别从源域图像和目标域图像中提取(3.A节)。然后,裁剪的源域图像
I
c
S
I_{cS}
IcS和目标域图像
I
c
T
I_{cT}
IcT被送到分割网络S,以产生OD和OC预测(3.B节)。patch级判别器D用于鼓励分割网络为源域图像
I
c
S
I_{cS}
IcS和目标域图像
I
c
T
I_{cT}
IcT产生相似的输出(3.C节)。整个框架最终通过对抗学习得到了优化。
图2。pOSAL框架概述。ROI区域(
I
c
T
I_{cT}
IcT,
I
c
S
I_{cS}
IcS)首先从源域(
I
S
I_S
IS)和目标域(
I
T
I_T
IT)图像中提取,然后输入到分割网络S中。基于patch的对抗性学习方案中的鉴别器D增强了目标图像预测(
y
c
T
y_{cT}
ycT)和源图像预测(
y
c
S
y_{cS}
ycS)之间的相似性。分割网络由在源域图像(
y
c
S
y_{cS}
ycS)预测上计算的分割损失(
L
s
e
g
L_{seg}
Lseg)和在未标记目标域图像(
y
c
T
y_{cT}
ycT)预测上计算的对抗损失(
L
a
d
v
L_{adv}
Ladv)监督。
A. ROI提取
~~~~~~~ 为了进行精确的分割,我们首先定位OD的位置,然后从原始图像中裁剪出视盘区域用于进一步的分割。为了实现这一点,我们建立了一个提取网络E来分割OD,并根据分割结果裁剪ROI图像。提取网络被配置为分割视盘以提供粗略的引导。尽管仅使用源域图像和标签进行训练,但正如我们的实验将证明的那样,由于源域和目标域图像中视盘的强且可见的结构特征,训练的提取网络在目标域图像上很好地推广。因此,可以通过相同的提取网络获得两个域域图像的盘区域。具体来说,我们的提取网络遵循U-Net [37]架构,并使用调整大小的源阈图像(640 × 640)和相应的OD标签进行训练。训练好的神经网络可用于两个领域的粗外径预测。然后,我们将预测的外径mask映射回原始图像,并基于预测的OD mask的中心裁剪尺寸为512 × 512的子图像。提取网络E有19个卷积层,最后一个是1 × 1卷积层,有一个输出特征通道用于OD分割。我们使用sigmoid激活函数来生成OD的概率图
B.具有形态学感知损失的分割网络
图3。分段网络的结构。它基于DeepLabv3+,但以MobileNetV2为网络骨干。
~~~~~~~ 我们基于上述裁剪的ROI图像进行OD和OC分割。为了更好地捕捉输出空间的几何结构,我们定制了一个具有新颖的形态学感知分割损失的网络,用于OD和OC的高质量分割。
~~~~~~~ (1)分割网络架构:我们的分割网络遵循DeepLabv3+架构的精神[13]。为了进一步减少参数数量和计算成本,我们将主干网络Xception[13]替换为轻量级和便捷的mobilenev2[14],如图3所示。第一个初始卷积层和随后的MobileNetV2的七个反向残差块被用来提取特征。我们将第一个卷积层和下面三个块的stride保持初始设置,并将剩余块中的stride设置为1。网络的总下采样速率是8。利用具有不同膨胀率的ASPP分量[13]来生成多尺度特征。然后,将特征图连接起来,然后是1 × 1卷积层。为了整合来自不同层次的语义线索,我们对上面组合的特性进行了上采样,并将其与用于细粒度语义分割的低层特征连接起来,就像DeepLabv3+一样。最后,根据[1]中的多标签设置,我们使用另一个1×1卷积层,该卷积层具有两个输出信道,然后是Sigmoid激活函数,以同时生成OD ( p d p^d pd)和OC ( p c p^c pc)的概率图。设计的分割网络的输入大小为512×512×3,可以将整个裁剪后的图像作为输入。
~~~~~~~
(2)形态学感知分割损失:为了提高分割效果,我们提出了一种新的形态学感知分割损失来指导网络进行分割,并获取OD和OC的平滑度先验。这种联合形态损失包括骰子系数
L
D
L
L_{DL}
LDL和平滑度损失
L
S
L
L_{SL}
LSL。
~~~~~~~
骰子系数损失[38]测量 prediction和ground truth之间的重叠,并写成
其中 Ω \Omega Ω是图像中的总像素;p和y分别是预测概率图和二进制ground truth 。
~~~~~~~
平滑度损失促使网络在相邻区域内产生同质预测。它是通过二进制成对标签交互来计算的:
其中
N
i
N^i
Ni是像素i的四个相连的邻居;p和y分别表示预测和ground truth。当中心像素i的相邻像素j的grouth truth属于同一类别(
B
i
,
j
=
1
B_{i,j }= 1
Bi,j=1)时,平滑度损失促使它们具有相似的预测概率。平滑度损失分别应用于OD和OC概率图。
~~~~~~~
联合形态感知分割损失定义为
其中
p
d
p^d
pd、
p
c
p^c
pc、
y
d
y^d
yd、
y
c
y^c
yc分别是OD和OC的预测概率图和二进制ground truth mask;
λ
1
λ_1
λ1、
λ
2
λ_2
λ2和
λ
3
λ_3
λ3是根据经验分别设置为0.4、0.6和1.0的权重。观察到由于组织块的边界不清楚,OC的分割比OD的分割更加困难,因此我们根据经验为λ2设定了比λ1稍大的值。
C.基于Patch的输出空间对抗学习
~~~~~~~ 与基于高级特征的图像分类不同,用于分割的特征需要编码低级描述符和高级抽象,例如外观、形状、环境和对象语义信息。然而,由于处理高维特征的复杂性,基于特征空间的域自适应可能不是我们分割任务的最佳选择[15]。尽管图像外观跨域移动,但是源域和目标域图像的分割在输出空间中具有相似的几何结构(即,分割掩模)。因此,通过强迫两个域在输出空间共享相同的分布来桥接它们成为域自适应的有效方式。在这项工作中,我们提出通过输出空间对抗式学习来执行分割任务的域适应。**具体来说,目标域图像的分割掩模应该与源域的分割掩模相似。**为了实现这一点,我们在分割网络S的输出后附加了一个patch级鉴别器D,然后采用对抗式学习技术来训练整个框架。在这种对立的设置中,**分割网络S旨在通过为源域和目标域生成相似的输出空间分布来欺骗判别器D,而判别器旨在将来自目标域的分割识别为异常值。**分割掩模上的几何结构约束通过这种对抗过程得到保证。
~~~~~~~
(1)patch判别器:我们采用patch鉴别器(PatchGAN) [39],[40]来进行对抗性学习。PatchGAN 试图对来自预测掩膜的每一个m × n重叠的片是否与来自源预测的分布一致进行分类。与图像级(ImageGAN)或像素级(PixelGAN)对抗性学习相比,PatchGAN具有捕捉输出空间的局部统计量[41]的能力,并引导分割网络关注图像块中的局部结构相似性。
图4:基于Patch的判别器的网络架构。
~~~~~~~ 我们通过一个全卷积网络实现了基于patch的判别器,如图4所示。该网络包含5个卷积层,核大小为4 × 4,步长为2×2。五个卷积层的通道数分别为64、128、256、512、1。每个卷积层之后的激活函数是LeakyReLU,α值为0.2,除了最后一层使用Sigmoid函数。基于patch的判别器的输出尺寸(m×n)是16 × 16,其中一个像素对应于输入概率图中尺寸为94×94的块。每个patch通过判别器被分类为真(1)或假(0)。我们使用这种对抗式学习策略来迫使目标域预测中生成的每个patch与源域的patch相似。
~~~~~~~
(2)目标函数:通过对抗性学习,我们将优化过程建模为两人最小最大博弈,交替更新分割网络S和判别器D中的权重。判别器评估输入是否来自源域预测。我们将判别器的训练目标表述为
其中,如果patch预测来自源域,则z = 1,如果patch预测来自目标域,则z = 0。
~~~~~~~
对于分割网络,目标函数由源域图像的形态学感知分割损失和目标域图像的对抗损失组成。一般来说,分割网络的训练目标是
由于我们有来自源域的图像标注,我们可以使用联合形态学感知分割损失
L
s
e
g
L_{seg}
Lseg来优化分割网络。对抗性损失
L
a
d
v
L_{adv}
Ladv是为目标领域
I
c
T
I_{cT}
IcT中无标注的图像设计的。分割网络负责“愚弄”判别器D,以将目标域图像的预测分类为源预测。
~~~~~~~ (3)训练策略:我们按照[42]中的标准方法优化分割网络和判别器。在每次训练迭代中,我们交替地将图像从源域 I c S I_{cS} IcS和目标域 I c T I_{cT} IcT馈送到网络。然后我们通过最小化所提出的目标函数 L S L_S LS和 L D L_D LD来优化整个框架。我们对每个训练迭代重复上述过程。
4. 实验
A.数据集
~~~~~~~
我们在三个公共的OD和OC分割数据集上进行了实验,Drishti-GS数据集[10],RIM-ONE-r3数据集[11]和REFUGE挑战数据集1。表1列出了这三个数据集的统计数据。我们将REFUGE数据集的训练部分称为源域,Drishti-GS数据集、RIM-ONE-r3数据集和REFUGE数据集的验证/测试部分称为目标域。源域和目标域图像由不同的相机捕获,使得图像的颜色和纹理不同,如图5所示。我们首先在Drishti-GS和RIM-ONE r3数据集上对我们的pOSAL框架进行了广泛的评估和分析,然后在HERIVE测试数据集上与其他最先进的分割方法进行了比较。
图5。不同数据集的图像比较。不同数据集图像之间存在着巨大的颜色和纹理的变化。
B. 实现细节
~~~~~~~ 框架是基于Keras [44]用Python实现的,带有Tensorflow后端。我们首先用源域图像和标注训练分割网络,然后利用对抗性学习以端到端的方式训练整个pOSAL框架。在训练分割网络时,我们使用了Adam [45]优化器,并通过在ImageNet数据集上训练的MobileNetV2 [14]权重来初始化主干网络权重。我们把初始学习率设为1e-3,每100个epoch除以0.2。我们在一台带有四个Nvidia Titan Xp GPUs的服务器上总共训练了200个小批量大小为16的epochs。采用数据扩充,通过随机缩放、旋转、翻转、弹性变换、对比度调整、添加噪声和随机擦除来扩展训练数据集[46]。当端到端训练整个pOSAL框架时,我们交替地将源图像和目标图像馈送到网络。分割网络的优化方法同上,鉴别器D采用随机梯度下降(SGD)算法优化。分段网络和判别器的初始学习率分别为2.5e-5和1e-5,并在总共100个epoch中使用[47]中提到的0.9的幂的多项式衰减来降低。我们进行了形态学操作,即填充孔,对预测的掩模进行后处理。实施和分割结果可在https://emmaw8.github.io/pOSAL.获得。
C. 评估指标
~~~~~~~
我们采用了REFUGE挑战评估指标、骰子系数(DI)和垂直杯盘比(CDR)来评估该方法的分割性能。标准定义为
其中
N
T
P
N_{TP}
NTP、
N
F
P
N_{FP}
NFP和
N
F
N
N_{FN}
NFN分别代表真阳性、假阳性和假阴性像素的数量。
C
D
R
p
CDR_p
CDRp和
C
D
R
g
CDR_g
CDRg表示预测和ground truth的杯盘比,而
V
D
c
u
p
VD_{cup}
VDcup和
V
D
d
i
s
c
VD_{disc}
VDdisc分别是OC和OD的垂直直径。dice系数是分割任务的标准评估指标,而CDR值是临床惯例中青光眼筛查的关键指标之一。我们使用绝对误差δ来评估预测
C
D
R
p
CDR_p
CDRp的CDR值和地面真实
C
D
R
g
CDR_g
CDRg的CDR值之间的差异,而较低的δ值代表较好的预测结果。
D. 在Drishti-GS和RIM-ONE-r3数据集上的实验
~~~~~~~ 在域自适应设置下,我们需要利用未标记的目标域图像来训练整个框架。为了公平比较,训练阶段使用的未标记的目标域图像不同于测试阶段的目标域图像。我们在实验中遵循这个实验设置。
~~~~~~~
(1)基于patch的输出空间对抗学习的有效性:Drishti-GS和RIM-ONE-r3数据集都提供了训练和测试图像分割。因此,对于Drishti-GS数据集,我们使用REFUGE训练数据集作为源域,Drishti-GS数据集的训练部分作为目标域来训练我们的pOSAL框架。然后我们在Drishti-GS测试数据集上报告了我们方法的分割性能。我们对RIM-ONE-r3数据集进行了相同数据集设置的实验。
~~~~~~~
表II显示了DrishtiGS和RIM-ONE-r3测试数据集的分割结果。对于每个数据集,我们展示了我们的pOSAL框架(pOSAL)和分割网络(pOSALseg-S)的分割性能,以展示所提出的输出空间对抗学习的效果。我们使用 REFUGE训练数据集来训练pOSALseg-S模型,并在DrishtiGS和RIM-ONE-r3测试图像上直接对其进行评估。我们观察到,在Drishti-GS和RIM-ONE-r3数据集上,与pOSALseg-S相比,pOSAL一致地提高了视杯和视盘的DI和δ。在RIM-ONE-r3数据集上,通过基于patch的输出空间对抗学习,我们实现了杯和视盘分割的4.3%和8.6%的DI提高,而在Drishti-GS数据集上,我们还分别实现了OC和OD的2.2%和2.1%的DI提高。由于 REFUGE训练数据和RIM-ONE-r3数据之间的域差异大于避难训练数据和Drishti-GS数据之间的差异(见图5),RIM-ONE-r3的视盘和视盘的绝对DI值低于Drishti-GS。这些比较表明,基于patch的输出空间对抗式学习可以缓解数据集之间的性能下降与域转移。
~~~~~~~
(2)定性结果:我们在图6中显示了Drishti-GS数据集上OD和OC分割的一些定性结果。对于没有域自适应的pOSALseg-S方法,它可以定位近似位置,但是由于od和OC之间以及OD和背景之间(特别是图6中的列A、B和E)的边界处的低图像对比度,它不能产生OD和OC的精确边界。相比之下,我们提出的方法成功地定位了外圆和内圆,进一步保留了形状先验,生成了更精确的边界。
图6。Drishti-GS测试数据集的定性结果。每一栏都有一个例子。从上到下:原始图像,带有OD和OC的ground truth 轮廓的 ROI,pOSALseg-S的结果,以及我们的pOSAL框架的结果。绿色和蓝色轮廓分别表示OD和OC的边界。
~~~~~~~ (3)与其他分割方法的比较:我们还报道了文献中一些监督学习方法对上述两个数据集的分割性能。在这些方法中,网络以有监督的方式利用数据集的训练分割进行训练,并在相关数据集的测试部分进行评估。除了文献中的方法之外,我们还用训练数据训练了我们的分割网络,并在测试图像(表示为pOSALseg-T)上报告了分割性能,以显示我们设计的分割网络在具有形态学感知分割损失的情况下的有效性。我们在表二中显示了这些结果。如我们所见,在Drishti-GS和RIM-ONE-r3数据集上,与其他监督方法相比,我们的分割网络(pOSALseg T)可以为视杯和视盘分割产生更好的DI,显示了分割网络设计的有效性。在另一个方面,观察到我们的pOSAL框架在Drishti-GS数据集上的视杯和视盘分割性能非常接近于这些监督方法,这进一步表明了所提出的基于patch的输出空间对抗学习的有效性。
~~~~~~~
(4)与不同域适应方法的比较:据我们所知,我们没有发现任何探索视盘和视杯分割的域适应的先前工作。因此,我们将pOSAL框架与其他医学图像分析和自然图像处理任务中的几种无监督域自适应思想进行了比较。具体来说,我们将我们的pOSAL框架与基于CycleGAN的无监督区域自适应方法TD-GAN [32]、潜在特征对齐方法[48]和最近用于眼睛血管分割的区域自适应方法[31]进行了比较。为了展示我们基于patch的判别器的有效性,我们还实现了一个基于像素的对抗性学习判别器(称为OSAL像素)。表三显示了不同领域适应方法在Drishti-GS和RIM-ONE-r3数据集上的性能。为了公平比较,所有方法都采用相同的分割网络架构。如我们所见,在Drishti-GS和RIM-ONE-r3数据集上,我们的pOSAL框架在这些无监督的域自适应方法中实现了最佳的视盘和视盘分割性能。在另一个方面,基于patch的对抗性学习优于像素级判别器(OSAL像素)和图像级判别器(Javanmardi等人[31]),因为它同时考虑了局部和全局上下文信息。
~~~~~~~
(5)青光眼筛查的表现:垂直CDR值是青光眼筛查的重要指标之一。因此,我们提供了基于我们的分割方法的青光眼诊断性能。具体来说,我们使用分割的OD和外径OC来计算第i个图像的垂直CDR值
p
i
p_i
pi。然后,可以使用以下等式来计算第i个图像的归一化的CDR值
其中
p
m
a
x
p_{max}
pmax和
p
m
i
n
p_{min}
pmin分别是所有测试图像的最大和最小垂直CDR值。我们在图7中报告了用于青光眼筛查评估的接收器操作特性(ROC)曲线和ROC曲线下面积(AUC)。
图7。我们的方法在DrishtiGS和RIM-ONE-r3数据集上筛选青光眼的ROC曲线。
E. REFUGE挑战的结果
~~~~~~~ 我们结合MICCAI 2018报告了REFUGE挑战的视盘和视杯分割任务的结果。挑战数据集由三部分组成:训练数据集、验证数据集和测试数据集。验证和测试数据集使用相同的摄像机采集,详细信息如表1所示。测试图像通过现场部分进行评估,参与者有四个小时的时间采集测试图像并提交预测结果,以避免手动调整超参数。我们将训练图像作为源域,将验证图像作为未标记的目标域来训练我们的pOSAL框架。然后通过五个模型的集合获得测试图像预测,以进一步提高分割性能。其他参与团队也使用集成方案来生成最终测试预测(例如,马斯克团队)。
~~~~~~~
有12个团队被选中参加现场REFUGE挑战,以完成OD和OC细分任务,挑战结果列于表四(排行榜位于挑战网站)。每个团队只允许提交一次,团队根据以下三个指标的加权和进行排名:
~~~~~~~
其中,RDIcup、RDIdisc和Rδ分别表示DIcup、DIdisc和δ标准的等级。更低的Sf意味着更好的最终排名。所有这些方法都是利用深度神经网络来进行OD和OC分割。一些方法使用其他数据集(例如ORIGA [6]和IDRiD3)作为额外的训练数据来提高模型的泛化能力,而我们仅使用组织者提供的训练和验证数据集。在表四中,我们观察到,我们的pOSAL框架在视盘DI上比排名第二的Masker团队高出约1.4%,而我们在视盘DI和CDR δ上都取得了令人瞩目的性能。总的来说,我们的pOSAL框架实现了最好的整体排名分数Sf和在这项具有挑战性的任务中的第一名,证明了pOSAL的有效性。我们还使用单个模型直观地比较了有和没有输出空间对抗性学习的结果的外观差异。如图8所示,我们的pOSAL框架可以保留椭圆特征,并将视杯推入视盘内,以产生更好的视觉效果。
图8所示。REFUGE测试图像的定性结果。绿色和蓝色的轮廓分别表示OD和OC的边界。
~~~~~~~ 此外,我们进一步验证了基于patch的输出空间对抗学习在REFUGE数据集上的有效性。具体来说,我们将400幅验证图像随机分成两个大小相等的部分,分别用作训练网络的未标记目标域训练数据和评估网络的目标域测试数据。我们在表五中报告了我们的pOSAL框架和没有域自适应的相同网络的性能。正如我们所看到的,所提出的pOSAL框架还改进了在REFUGE验证数据集上视盘和视杯的DI。
~~~~~~~ 我们比较了不同损失函数对分割网络的影响。具体来说,我们将400个REFUGE训练图像分成320个和80个图像,分别用不同的损失函数对网络进行训练和评估。结果如表六所示。我们可以发现,与交叉熵损失相比,骰子损失实现了更好的DI和可比的OD。当与平滑损失相结合时,所提出的形态感知分割损失实现了最佳的外径和外径预测,这表明形态感知分割损失产生高质量的预测。
~~~~~~~ 我们还在此提供青光眼筛查评估结果,供读者参考。我们直接利用pOSAL框架的分割结果来计算垂直CDR值,以根据前两个数据集上的方法来诊断青光眼。由于我们无法获得青光眼的ground truth,我们仅在挑战测试数据集上报告青光眼筛查的AUC。AUC值为0.9644,在现场挑战4中排名第三(CUHKMED团队)。
5. 讨论
~~~~~~~ 视盘与视杯的比值已被认为是青光眼筛查的一个重要属性,因此在临床实践中迫切需要一种高质量的自动分割方法。尽管有大量的工作在研究这个问题,但由于缺乏注释、临床应用中的噪声或稀疏注释以及训练图像和真实测试图像之间的域转移,研究工作与临床实践之间仍然存在差距。在这项工作中,我们致力于开发无监督的领适应方法,使视盘和杯分割应用于临床应用。我们方法的关键是鼓励目标域预测更接近源域,因为OD和OC几何结构应该为源域和目标域图像保留。在三个公共眼底图像数据集上的大量实验充分证明了我们的方法在将分割网络推广到未标记的目标域图像方面的潜力。
~~~~~~~ 在我们的方法中,我们首先使用提取网络在执行分割之前裁剪ROI图像。为了说明提取感兴趣区域的必要性,我们进行了另一个实验来观察提取网络E的整体性能。我们训练了一个新的提取网络E,它有两个输出,而不是只有视盘。Drishti-GS和RIM-ONE-r3数据集的OC和OD性能如表8所示。观察到仅使用提取网络E的分割性能远低于完全方法pOSAL。这里的结果验证了两级步骤的有效性。良好的ROI是两级步骤中良好分割结果的基础。在某些情况下,外径和背景之间的边界不清楚,因此外径可能不在感兴趣区域的中心。为了避免这种情况,需要正确设计ROI的大小。在我们的实验中,感兴趣区域的宽度和高度大约是外径的两倍,这有助于放松位置偏差。我们发现,在这个实验设置下,所有的OD和OC区域都被裁剪的ROI覆盖。
~~~~~~~
目前,许多工作都集中在计算有效的网络设计[14],[49]上,旨在为计算能力有限的移动设备推广深度学习应用。在我们的工作中,我们使用了一个MobileNetV2[14]作为网络主干,以降低计算成本。我们比较了原始主干的分割性能、参数数量和测试时间成本:表七中的Xception[13]和MobileNetV2 [14]。据观察,与Xception主干相比,MobileNetV2主干具有更少的参数,并且可以在性能相似的情况下将测试时间减少一半。这种比较表明,我们可以开发更轻量级的网络架构,以促进青光眼筛查移动应用的发展。虽然我们的网络可以推广到未标记的目标域图像,但是需要从目标域中收集额外的未标记图像来训练网络。此外,当图像来自新的目标域时,需要重新训练新的网络。实际上,未标记的目标域图像在训练阶段可能不可用。因此,在未来,我们将探索领域泛化技术[50]–[52]来解决这个问题,而不需要许多目标图像。
6. 结论
~~~~~~~ 提出了一种新的基于patch的输出空间对抗学习框架,用于从不同的眼底图像中分割视盘和视杯。我们首先使用了一个轻量级和高效的网络,它具有形态学感知的分割损失,以生成准确和平滑的预测。为了解决源域和目标域之间的域转移问题,我们利用无监督域自适应模型来提高分割网络的泛化能力。特别地,基于patch的输出空间对抗学习被设计为捕获输出空间的局部统计,并引导分割网络为来自目标域和源域的图像生成相似的输出。我们还在三个公共视网膜眼底图像数据集上进行了广泛的实验,以证明所提出的pOSAL框架的显著改进和有效性。在不久的将来,将会有更多的努力将这个框架扩展到其他医学图像分析问题。