Oropharyngeal Tumor Segmentation Using Ensemble 3D PET-CT Fusion Networks for the HECKTOR Challenge
Abstract
在本文中,我们介绍了一个头颈癌患者CT和PET图像中GTVs描绘自动分割算法。数据是由MICCAI 2020 HECKTOR 挑战提供的。我们研究了两种方法,第一个,端到端的体积方法,第二个,融合了感兴趣切片3D上下文的切片预测方法。在一个划分出来的验证集上,Dice为0.669,在一个额外的测试集上,Dice为0.587。
Introduction
根据欧洲医学肿瘤学协会(European Society For Medical Oncology)的数据,头颈部鳞状细胞癌(HNSCC)是全球第六大最常见的癌症[7]。在所有癌症类型中,HNSCC占发病率的6%,死亡的1%-2%。放射治疗是HNSCC的标准护理治疗。PET-CT扫描通常用于治疗计划。治疗计划过程包括手动勾画总肿瘤体积(GTV)的轮廓,这是耗时、昂贵的,并且受到阅读器间和阅读器内变异性的影响。准确和鲁棒的自动分割可以潜在地解决这些问题。除了治疗计划,放射组学领域[1]还可以受益于PET-CT图像的可靠自动分割算法。放射组学涉及使用图像衍生的定量生物标记物预测肿瘤特征。目前,基于PET-CT的放射组学模型的大规模验证受到包含精确的专家描述的GTV的PET-CT图像数据集的限制,可以通过应用自动分割技术从未标记的数据生成GTV分割来解决。这就是MICCAI 2020:HECKTOR Challenges[2,3]项目发起的主要动机,该项目旨在评估FDG-PET/CT卷中口咽部GTV分割的双模式融合方法。
为了处理互补的双模态信息,最近的文献中提出了各种方法。Andrearczyk等人在[2]中在基于V-net的框架中,采用两种简单的PET-CT融合策略,即早期融合和晚期融合,用于分割头颈部GTV和转移性淋巴结。钟等人在[18]中应用晚期融合方法,分别对PET和CT使用两个独立的3D U-Net,并使用图切共分割来合并它们的输出。还提出了融合PET和CT衍生信息的新颖和专门的深度神经结构[9],用于骨病变检测的专门W-net结构[16],寻求融合从PET和CT单独学习的深度特征然后共同学习组合特征的多分支网络[10,17],以及使用多模态空间注意力的模块化结构[8]。Li等人在[11]中提出了一种混合方法,该方法利用3D全卷积网络从CT获得肿瘤概率图,并使用模糊变分模型将其与PET数据融合。
在本文中,我们描述了一个基于集成的分割模型,该模型由两个基于3D Unet的网络组成,并比较了基于体积Dice分数合并它们的输出的各种策略。我们将探索简单的集成方法,包括加权平均、并集和交集运算。我们将在2.3节和2.4节详细讨论我们的分割方法。此外,我们对常用的预处理方法进行了比较,并考察了后处理对模型性能的影响。预处理和后处理方案的详细信息分别在第2.2节和第2.5节中介绍。为上述比较研究进行的实验以及它们的结果记录在第3节中。最后,我们将执行的大多数数据操作的代码公之于众。代码链接
Methodology
Dataset
对于我们模型的训练和验证,我们使用了HECKTOR挑战提供的基准数据集。训练数据集由魁北克的四个中心的201例被确诊为口咽癌的病人组成,包括PET/CT数据以及对应的GTV分割掩码。这个数据集是一个大数据集的子集,这个大数据集在TCIA上可以得到。出于挑战的目的,这个子集经过了质量控制,包括将每个病人原始的PET强度转换为SUV值并且将原始的GTV重新注释。由HECKTOR挑战提供的用来对提交做最终评估的测试数据集,是来自CHUV机构的53个病人的PRT/CT图像的集合。不同病人图像数据的物理尺寸,array size以及体素间距都是不同的。因此,为了标准化,我们将所有的图像裁剪成144x144x144mm^3大小。随后,我们使用3次样条插值对扫描进行重新采样,使x-y平面上的像素间距为1×1m m2,轴向切片之间的间距为3 mm。这些维度是通过获得整个数据集上的像素间距分布并选择分布模式来最小化过采样,以便与各向同性重采样相比。提供的HECKTOR训练集被随机分成两个子集,分别有180名和21名患者用于模型训练和验证。上述数据准备步骤是使用挑战组织者2发布的公共Github存储库中获得的代码实现的。
Pre-processing
重采样的CT和PET体素强度分别以HU和SUV进行测量。在所提供的数据集中,PET扫描强度已经从绝对活度浓度(Bq/mL)和计数(CNTS)单位转换为SUV。我们通过在[150,150]范围内应用一个窗口来处理HU值,以聚焦于特定范围内包括GTV的组织。我们随后将其标准化到[0,1]的范围。与HU值相比,最大SUV值的动态范围更大,尽管在[0,5]范围内,值在整个数据集内遵循相似的分布。[0,5]之间类似分布的这种行为可以在图1中看到。为了说明这一点,我们将SUV值限制在[0.01,8]范围内,然后进行[0,1]归一化。我们避免使用全局标准化方案来避免从不同中心收集的测试数据的值的移动。作为一种替代的标准化方案,还对PET-CT扫描对进行了Z-Score标准化,但min-max[0,1]标准化最终在我们的验证数据上提供了最佳性能。
Network Architectures
在这项研究中,我们测试了两种不同的网络架构,比较了它们相关的输入输出表示的优缺点。第一种网络体系结构通过在要预测的每个切片周围集成“切片上下文”,逐切片地推断分割掩码。在这些切片的每一个上,网络基于切片的值及其在某个范围内的邻居的值来输出预测。特定切片周围的邻居范围就是我们所说的切片上下文。第二个网络是一个全体积3D网络,它将一个完整的体积作为输入,并输出另一个包含输入的每个体素的预测的体积。
3D-to-2D U-Net with Fully Connected Bottleneck
我们使用了尼可洛夫等人提出的3D U-Net网络架构的定制实现。该网络的输入是具有21个切片的3D体积,每个切片的尺寸为128 × 128。在21个切片中,中心切片每侧的10个切片组成切片上下文,并且网络输出对应于中心切片的2D分割。就网络设计而言,在Unet的分析路径中存在7个混合了2D和3D卷积的下卷积块。在分析路径的末尾,引入了一个完全连通的瓶颈。在瓶颈之后,7个上卷积块让位于网络的合成路径。
Fully Volumetric 3D U-Net
3D U-net是由Cicek等人介绍的。[5]将2D U-Net的成功扩展到3D体积输入。在我们的工作中,我们使用了ELEKTRONN3工具包3一部分提供的3D U-Net的修改版本。该网络的输入是在z轴上具有48个切片的3D体积,并且每个切片具有144×144的形状。网络的输出遵循与输入相同的空间配置。为了允许每个batch容纳更多的3D volumes,使用浅的架构。在分析路径中使用3个下卷积块,并且在综合路径中让位于2个上卷积块。
Model Training and Hyperparameters
我们的工作主要集中在模型训练过程上,以解决3D数据、数据不平衡以及内存和计算效率问题。对于第2.3节中描述的网络,我们使用了基于标签的抽样,通过从包含GTV的所有切片中随机抽样来选择切片。为了解释没有GTV的切片,我们还以一定的概率(选择p=0.2)从背景切片中随机抽样。数据不平衡是通过使用类似于[13]的top-k损失来解决的,该损失优化了图像中表现最差的k%体素的损失。这使得模型能够有效地处理不平衡的数据点,并首先训练最难的损失。优化器被附加到衰减循环学习率调度器[14],以帮助其处理通过top-k损失获得的复杂损失情况。通过使用一定范围的学习率,与衰减的学习率调度器相比,该调度器确保优化器能够跳出局部极小值,并避免训练期间的停滞。
Post-processing
我们采用了一个后处理步骤来改进模型假设的二进制掩码中的预测GTV结构,并处理假阳性体素组。首先,使用具有大致球形结构的5×5×5结构矩阵进行形态扩张,以使预测的结构更像肿瘤一般的球形。然后,从二值图像中提取所有连通分量,并将最大的几何结构视为GTV,而忽略所有其他为假阳性的几何结构。最后,对最大连通分量进行形态闭合,以平滑具有与膨胀相似的结构矩阵的轮廓。
Experiments and Results
在本节中,我们将描述使用我们的方法进行的实验以及由此获得的结果。所有实验都使用权重和偏差(W&B)[4]进行跟踪,以观察定性指标(如每次扫描预测的分割图)和定量指标(如损失和Dice得分)。我们提供与我们的每个实验相对应的W&B运行信息,以实现托管在此仪表板上的重现性。
我们所有的实验都是在马斯特里赫特大学数据科学研究基础设施4提供的集群和R WTH-Aachen5托管的HPC集群上运行的。由于这些群集的硬件不同,我们使用了不同的batch sizes(32个用于3D-to-2D Unet,8个用于fully volumetric 3D Unet)和缓存方法来执行有效的培训。这些详细信息可以通过浏览W&B仪表板找到。
PET only Training
作为初步实验,第2.3节中的网络仅针对PET数据进行训练。在使用第2.4节提到的训练配置训练200,000次迭代之后,在学习率范围为0.001到0.01的情况下,在保持的验证数据上获得0.526的最终Dice分数。定性检查结果显示,当PET强度较高时,出现GTV的概率很高,但在ground truth情况下没有肿瘤存在。图2显示了看到的误报的一个示例。将这些PET数据与结构信息配对,将在避免此类情况和区分高强度区域的假阳性方面发挥强大的作用。
PET-CT Early Fusion
为了融合来自PET和CT模态的信息,我们应用了一个非常简单的通道融合策略。PET和CT 3D体积堆叠在形成模型的4D PET-CT输入的通道上。我们遵循这种融合策略,以允许整个模型可以访问融合后的PetCT信息,因为它们在确定GTV轮廓方面是互补的。
PET-CT数据作为输入,输入到第2.3节定义的两个网络中。对于第2.3节中描述的3D-to-2D模型,我们使用了大的batch size,因为与end-to-end volumetric 3D方法相比,3D输入较小。这两个网络还使用这些batch sizes运行了200,000次迭代。3D-to-2D网络在训练期间采用旋转、剪切和弹性变形进行训练。与仅使用PET的网络相比,训练结果在质量和数量上都要优于纯PET网络,在验证数据分割上获得了0.648分的DICE分数。定性上,结果也显示了真阳性的增加和假阳性的大幅减少,这些假阳性随着强度值的增加而增加,就像在仅PET方法中所看到的那样。我们还试验了一种完全体积的3D方法,将其与3D体积与2D切片预测输入输出表示进行比较。这个实验提供了与前一种方法类似的定量结果,骰子得分为0.639,但定性预测有所不同。在3D空间中,该网络的定性预测明显比以前的方法更平滑,但遗漏了一些较小的轮廓(在体素空间中占据较小的维度)。图3显示了不同网络之间的这些定性差异。
图3 将这两种模型的GTV预测与3D中的地面真实情况进行了比较。对于第一行中的图像,(b)与(a)相比,(b)具有明显更少的假阳性,并且生成更精确的3D体积。在第二行,(d)在符合基本事实方面胜过(e)。(e)在匹配(f)中的轮廓形状时遗漏了很大一部分。
Model Ensembling
通过对3D-to-2D和全体积3D早期融合U-Net的预测子集的目测检查,我们发现这些网络中的每一个在正确分割GTV方面都以不同的方式失败。这可以在图3中看到。为了利用这种明显的互补行为,我们试验了使用简单的集成方法将它们的输出组合在一起,为每个验证示例产生最终的分割掩码。特别地,我们比较了三种操作–加权的体素平均、并集和交集。 将加权平均运算应用于两个网络的输出体素概率,其中每个网络的输出概率图被分配了单一的固定权重。将并集和交集操作应用于两个网络的二进制掩码输出,每个网络都使用0.5的GTV概率阈值获得。
Post-processing
为了衡量第2.5节讨论的后处理顺序对模型性能的影响,将后处理操作应用于每个情况下模型的二元预测掩码-两个早期融合U网模型及其集成-并将得到的验证Dice分数与没有后处理步骤的相应模型的验证骰子分数进行比较。
在不进行后处理的情况下,3D-to-2D和fully volumetric 3D U-Net的加权平均集成操作所用的权值分别为0.6和0.4。经过后期处理,两者的权重均为0.5。在每种情况下,权重都是相对于平均验证Dice在一组固定值中最优的,如图4所示。
图4.带和不带后处理步骤的加权体素平均策略的集成模型的权重与平均验证骰子图。这里,权重是指分配给3D-to-2D U-net的预测GTV概率图的权重值。
表1展示来上述模型配置下实验中的验证Dice分数。结合加权平均的两个早起融合Unet的预测提高了整体的表现。在引入后处理时这个提高也可以看到。然而,使用后处理步骤,除了基于融合的部分显示出很小的提高,其他部分没有提高而是恶化了。后处理的负面作用可以在联合嵌入的表现中观察到,因为它从最好的表现迅速降低为最差的表现。更多的是,在加权平均融合的案例中,所有参数的后处理都表现不好,可以在图4中看到。
图5中可以看到在分割管道中不同组成部分的一个块状示意图。管道中的每一个组成部分都在上面的部分中详细地描述了。
Post-challenge Results
在挑战中的测试集上表现最好的模型变体是没有后处理的加权平均融合的模型。这个可以在图4中绿色线中顶部的那个点看到。3D-to-2D Unet的预测p1和fully volumetric 3D Unet的预测p2的组合如下:
p=0.6p1+0.4p2
由阈值p>=0.5获得的最终的二进制标签图提交到挑战中去。这个模型获得了0.587的Dice分数。和挑战的冠军相比,我们的Dice分数少了0.17. 我们假设这个差异是因为不同中心的数据分布的移动,我们的方法表现较差是因为我们没有在预处理中来解决这个问题。
Discussion and Conclusion
HECKTOR挑战提供来一个很强的标准来比较PET-CT图像中的口咽癌肿瘤的自动分割算法。自动分割算法在为放射学治疗计划提供轮廓勾画帮助以及… 通过这个挑战,我们可以比较有不同输入输出、预处理方法以及训练超参数的3D方法。
可以PET-CT融合和只训练PET的网络结果的明显差异,这在定量结果上体现了融合模态互补信息的重要性。在获得slice-by-slice prediction models和fully volumetric 3D prediction models之后,进行了融合方法的实验来结合这些模型的优点。
在其他设计选择和结合中,由Andrearczyk等人进行的包括3D Vnet早期融合来进行原发性口咽癌GTV和病理淋巴结的分割。尽管由于使用数据的差异,我们的结果和它们的结果并不能进行有效的比较,但是在研究模型性能的架构设计方面的影响还是很有趣的。例如,在PET-CT早期融合的上下文中,比较3D Vnet和fully volumetric 3D Unet在研究中的设计。
在未来的工作中,我们计划在不同中心中进行大的交叉验证研究来和其他方法进行有意义的比较。另外,交叉验证策略可以解决分布移动问题来帮我们提高我们方法在测试集中的泛化能力。