Fully-Automated Segmentation of Nasopharyngeal Carcinoma on Dual-Sequence MRI Using Convolutional Neural Networks
Abstract
本文提出了一种基于卷积神经网络(CNN)的双序列磁共振成像(MRI)鼻咽癌自动分割方法。收集44例鼻咽癌患者的T1加权(T1W)和T2加权(T2W)MRI图像。我们开发了一种密集连通性嵌入UNet(DEU),并基于训练数据集中的二维双序列MRI图像对该网络进行训练,并进行后处理以去除假阳性结果。为了证明双序列MRI图像的有效性,我们在随机选择的8名患者中进行了不同输入的实验。我们使用10倍交叉验证策略对DEU的性能进行了评估,并将结果与以前的研究进行了比较。以单T1W、单T2W和双序列10次交叉验证为不同输入的Dice相似系数分别为0.620±0.0642、0.642±0.118和0.721±0.036。在与DEU的10次交叉验证实验中,DSC的中位数为0.735。7名外部受试者的DSC平均值为0.87(外部受试者是不是测试集?)。综上所述,我们成功地提出并验证了一种基于DEU和双序列MRI图像的鼻咽癌自动分割方法,该方法性能准确、稳定。如果进一步验证,我们提出的方法将在鼻咽癌的临床实践中使用。
Keywords
鼻咽癌,磁共振图像,双序列,卷积神经网络,分割
Introduction
鼻咽癌(NPC)是一种起源于鼻咽上皮的癌症类型,具有独特的地理分布模式,在东南亚和北非高发(1)。鼻咽癌在流行区的发病率为0.2‰。由于解剖学的限制和放射治疗的敏感性,放射治疗(RT)已成为唯一有效的治疗方法(2)。
NPC的准确描绘极大地影响了放疗计划。在计算机断层扫描(CT)图像(3)上,NPC不能从相邻的软组织中清楚地识别出来。与CT相比,磁共振成像(MRI)已显示出优异的软组织对比度,因此已被用作评估NPC区域,局部和颅内浸润的首选方式。此外,NPC具有复杂的解剖结构,并且通常与附近组织具有相似的强度.NPC通常呈现高形状变异性,使得NPC分割非常具有挑战性(4)。在临床实践中,NPC由放射科医师或肿瘤学家手动描绘,这是耗时且主观的。与手动描绘相比,自动分割方法可以更快,相对客观。
自动或半自动分割方法,如传统的机器学习(ML)方法(5-11),已经被应用于鼻咽癌分割。传统的最大似然方法是用特定的方法来提取手动描绘的特征,具有主观性。另外,卷积神经网络(CNNs)可以自动提取特征,在医学图像分析领域表现出了很好的性能。对于鼻咽癌的分割,已有一些基于CNNs的研究。.Wang等人(4)和Ma等人(12)提取二维MRI图像中的斑块,并训练CNN模型进行鼻咽癌分割。Wang等人(4)结果表明,CNN在分词任务中的表现优于传统的ML方法。但是,分块分割只利用局部小区域的信息,训练时间较长。为了克服这些局限性,其他研究已经将完全卷积网络(FCN)(13)或U-Net(14)结构应用于鼻咽癌分割。Men等人(15)和Li等人(16)采用改进的UNet对NPC进行端到端分割。U-net的完全卷积结构使得网络可以实现像素级分割,并且不需要提取块就可以输入整幅图像进行NPC分割。与提取图像上的patch相比,完全卷积结构能够利用全局图像信息分割鼻咽癌,提高了分割效率。基于模糊神经网络和UNet结构的鼻咽癌多模态图像分割已有研究。黄等人(17)应用改进的UNet对PET和CT图像中的NPC进行分割。Ma等人(18)应用组合细胞神经网络对CT和MRI图像中的鼻咽癌进行分割。与以往的研究类似,利用多模态信息的分割性能要好于使用单模态信息的分割性能。最近,Huang et al.(19)提出了一种在计算机视觉领域表现出优异性能的密集卷积网络(DenseNet)。DenseNet使用密集连接的路径来连接输入特征和输出特征,使每个微块能够从所有先前的微块接收原始信息。受深度CNNs在鼻咽癌分割中成功应用的启发,本研究提出了一种基于UNet、密集连通性和双序列MRI的密集连通性嵌入UNet(DEU),用于鼻咽癌的准确自动分割。
Materials and Methods
Patient Data Acquisition and Pre-processing
∗∗∗∗共收集鼻咽癌患者44例,男34例,女10例。患者年龄34~73岁。番禺中心医院伦理委员会进行了伦理审查,批准了这项研究,并免除了获得患者知情书面同意的必要性。T1加权(T1W)和T2加权(T2W)图像均使用1.5T西门子Avanto扫描仪(德国Erlangen的Siemens AG Medical Solutions)采集。T1W图像的空间分辨率为0.93×0.93×4mm3,T2W图像的空间分辨率为0.48×0.48×4mm3。扫描范围从下颌角至鞍上池(25层),或从胸骨上窝至鞍上池(45层)。鼻咽癌边界(包括原发肿瘤和转移淋巴结)的金标准由有经验的放射科医生手工勾画,并由有经验的肿瘤科医生参照T1W图像在T2W图像上进行复查,并保存为金标准图像,病灶内的值为1,其他区域的值为0。可检测到的淋巴结的诊断标准包括:(1)咽后外侧淋巴结,除咽后组外,所有其他颈部淋巴结的最小轴向尺寸为≥5 mm和10 mm,如果淋巴结的最小轴向尺寸≥6被认为是高危转移;(2)淋巴结有增强边缘或*坏死;(3)淋巴结分组(即存在三个或更多连续和汇合的淋巴结作为簇);(4)肺外淋巴结节的最小轴向尺寸被认为是高危转移的;(2)淋巴结有对比剂增强的边缘或*坏死;(3)结节分组(即存在三个或更多连续和汇合的淋巴结作为簇);(4)管外淋巴结。
为了充分利用T1W和T2W图像的信息,我们使用Mattes互信息(20)作为相关度量进行了T1W和T2W图像的联合配准。为此,使用一加一进化方法(21)(初始半径0.004,最大迭代次数300)来寻找最佳参数。为了将T2W图像重新采样到与T1W图像相同的空间分辨率,对同一患者的T2W图像和金标准图像进行线性插值下采样。T2W图像和金标图像的长度和宽度减少了50%。所有T2W和T1W图像通过最小-最大归一化进行归一化。所有图像切片均填零,裁剪成256×256维。本研究共使用1950对T1W和T2W图像。
Automatic Segmentation of NPC by Deep Learning
为了研究整合双序列信息的优势,我们设计了一个实验来比较不同的输入,采用10倍交叉验证策略。我们训练了三个模型用于不同输入的比较,即只使用T1W,仅使用T2W和双序列(T1W和T2W)MRI图像。
Comparison Between Different Inputs
Network Architecture
我们开发了一种DEU,既继承了密集连接的优点,又继承了U-Net式连接的优点。网络架构如图1所示,T1W和T2W图像分别通过两条独立的路径输入到网络中。作为端到端的分割框架,该结构由编码器部分和对称解码器部分组成。
FIGURE 1 |Architecture of the proposed CNN model. N×N×C, N is the size of feature map and C is the number of feature maps. N×N Conv, the convolutional layer with N×N kernel size; K=N, N is the growth filters number; N×N Average pooling, the average pooling layer with N×N kernel size; Concate layer, the concatenation layer; ReLU, rectified linear unit.
编码部分减小了输入数据集的大小,有效地提取了具有较高代表性的特征。解码器部分通过展开反卷积将提取的特征恢复到与输入图像相同的大小,该反卷积被转置卷积用于上采样。编码器部分由四个编码块和一个密集连接块组成。一个编码器块包含三个3×3卷积(Conv)层、两个组归一化(GN)层和两个Leaky ReLU单元(LReLU)层。卷积层的输出被输入到GN层,GN层的分组设置为8。由于GN具有比小批量的批归一化(BN)更好的性能,所以我们在所提出的网络中采用了GN。为了优化训练效果,防止梯度消失或爆炸,在每一卷积层之后进行LReLU到GN层的输出。采用stride=2卷积层对特征图进行下采样。LReLU定义为
其中,0和1之间的α决定负值部分的斜率。在提出的网络中将其设置为0.1。
密集连接块由密集块和过渡块组成。在瓶颈结构(25)的推动下,密集块是从任意层到所有后续层的直接连接。密集块由GN-LReLU-conv(1×1核大小)-GN-LReLU-conv(3×3核大小)组成。过渡块由GN层、1×1卷积层和2×2平均池化层组成。两个编码块分别用于提取T1W和T2W图像的低层特征,然后按通道将它们连接起来作为密集连通块的输入。另外两个编码块用于对密集连通块输出的低层特征进行排列和组合,以获得高层特征。
解码器部分由五个解码器块组成。解码块包括3×3反卷积层、级联层、两个步长为2的3×3卷积层、两个LReLU层和两个GN层。反卷积可能会导致高分辨率图像的信息丢失。为了解决这个问题,级联层被用来将来自编码器部分的卷积层中的特征映射与反卷积层中的当前特征映射进行融合。这些跳跃层能够捕捉到更多的多尺度上下文信息,提高了分割的准确性。在最后一层,特征图由1×1像素级Sigmoid卷积层计算。
利用所有的解码块,解码部分最终将特征映射重构为大小为256×256的输出图像,与输入图像的大小相同。对于网络优化,将金标准和分割结果之间的Dice损失(26)计算为目标函数。
Model implementation details
我们使用TensorFlow后端在Keras(27)中实施了提出的DEU,并在配备11 GB GPU内存的NVIDIA GeForce GTX 1080 TI上对其进行了训练。批大小设置为1。我们使用ADAM优化器,学习率为0.0001,历元数为200。在每个训练时期,应用数据增强来扩大训练数据集,并通过翻转和重新缩放每幅图像来减少过拟合。
为了进一步提高分割精度,我们对分割结果进行了后处理。由于2D网络可能忽略相邻切片的上下文信息,因此2D网络的分割结果可能包括一些孤立的假阳性(FP)区域。对每个患者的3D图像采用连通分量算法提取分割结果。为了提高分割精度,我们去除了仅在一个切片中分割的孤立区域。
单序列模型的网络结构不同于图1所示的双序列模型。单序列模型在网络开始时只有一条提取特征的单一路径。第一编码器块的输出被直接馈送到密集连接块。单序列模型的其他结构与DEU中的相同。我们使用10次交叉验证策略对单序列模型进行了评估,并用Mann-WhitneyUtest比较了单序列模型和双序列模型的性能。我们收集了另外七个案例作为外部验证数据集,以评估我们的双序列模型的稳健性和泛化能力(对应摘要的七个外部受试者)。
Performance Evaluation
我们使用测试数据集通过计算Dice相似系数(DSC)、灵敏度和精度来评估所有模型的分割性能,如下所示
其中,真阳性(TP)表示正确识别的肿瘤区域,FP表示错误识别为肿瘤的正常组织,假阴性(FN)表示错误预测为正常组织的肿瘤区域。DSC描述了分割结果与NPC黄金标准之间的重叠。敏感性描述了正确识别的肿瘤区域与鼻咽癌金标准之间的重叠。精度描述了正确识别的肿瘤区域在分割结果中的比例。
Comparison with Previous Studies
我们使用10倍交叉验证策略对所提出的方法进行了评估。我们还将我们对DEU的研究结果与前人的研究结果进行了比较。然而,由于数据集的不同,在不同研究之间进行直接比较是困难的。因此,在DSC方面,我们直接将我们的结果与这些出版物中的结果进行了比较。尽管它们可能没有合理的可比性,但这些比较在某种程度上为我们的方法如何超越类似的研究提供了洞察力。
Results
Comparison Between Different Network Inputs
如表1所示,在10倍交叉验证实验中,不同输入(仅T1W、仅T2W和双序列)模型的平均差值、灵敏度和精度分别为0.620±0.064、0.642±0.118和0.721±0.036。经Mann-WhitneyUtest检验,单序列模型与双序列模型之间的DSC值有显著性差异(T1W与双序列,p≤0.01;T2W与双序列,p=0.047)。双序列MRI图像输入的DSC均值高于单序列MRI图像输入的DSC均值。图2给出了一个自动分割结果的例子,其中仅使用T1W、仅使用T2W和双序列磁共振图像的DSC值分别为0.721、0.784和0.912。图3显示了两个结果较差的典型例子,其中我们提出的方法使用双序列磁共振图像的DSC值分别为0.610和0.467。这7例外部病例的DSC平均值为0.87。
图2|仅使用T1W、仅使用T2W和双序列图像的分割结果示例。(A)T1W图像。(B)仅使用T1W图像(绿线)和黄金标准(红线)显示在T1W图像上的自动分割结果。部分病灶在T1W像上表现为低信号(箭头)。©在T1W图像上显示双序列图像(蓝线)和黄金标准(红线)的自动分割结果。(D)T2W图像。(E)在T2W图像上显示仅T2W图像(黄线)和黄金标准(红线)的自动分割结果。在T2W图像上显示双序列图像(蓝线)和金标(红线)的自动分割结果。(F)T2W图像上的双序列图像(蓝线)和金标(红线)的自动分割结果。
图3:两个准确率较低的鼻咽癌切分的典型例子。第一行和第二行的Dice相似系数分别为0.610和0.467。(A,C)在T1W图像上显示双序列图像(绿线)和金标(红线)的自动分割结果。(B,D)在T2W图像上显示双序列图像(绿线)和金标(红线)的自动分割结果。
Comparison with Other Studies
在10倍交叉验证实验中,使用我们训练好的DEU模型,对一个实例(共配准的T1W图像和T2W图像,二维)的分割任务耗时约0.02s,而对于一个患者来说,分割时间小于1s。DEU的特征地图如图1A所示。
44例患者的中位数为0.735(范围为0.383~0.946)。所有患者的平均DSC、平均灵敏度、平均精密度分别为0.721±0.036、0.712±0.045、0.768±0.045。之前关于鼻咽癌MRI分割的研究结果如表2所示。李等人研究中的DSC(16)是0.736,然而在他们的研究中,他们手动选择肿瘤图像进行分割,这意味着他们的方法是半自动的。邓等人(10)和Ma等人(12)分别获得了0.862和0.851的高密度散射率,但其方法适用于含有肿瘤的磁共振图像,而且也是半自动的。Ma等人(18)获得的平均DSC值为0.746,然而,他们的方法适用于包含鼻咽区的切片。宋等人(8),Yang等人(9),和Huang et al.(17)获得的Dsc平均值分别为0.761、0.740和0.736,略高于我们的Dsc,但在他们的研究中使用的是正电子发射计算机断层扫描(PET/CT)图像。王等人的表现(4)方法(平均0.725)与我们的方法非常接近,仅在4例患者中进行了评估。Men等人(15)基于CT图像的鼻咽癌分割,其平均DSC值为0.716,略低于我们的。
Discussion
我们提出了一种基于双序列MRI图像和CNN的自动NPC分割方法。如表1和图2所示,与单序列MRI图像相比,双序列MRI图像具有更好的性能。图3的良好性能|两个典型的低精度NPC分割示例。第一行和第二行的骰子相似系数(DSC)分别为0.610和0.467。(A,C)在T1W图像上呈现双序列图像(绿线)和金标准(红线)的自动分割结果。(B,D)在T2W图像上呈现双序列图像(绿线)和金标准(红线)的自动分割结果。外部验证数据集表明我们的模型是稳健的。
如图2A、D所示,鼻咽癌在T1W和T2W图像上的图像特征不同。T1W图像将部分病变描绘为信号强度较低的区域(图2B,箭头)。这种低信号区域被错误地识别为正常组织,因为该网络不能从低信号区域获得肿瘤特征。如图2D所示,鼻咽癌的边界在T2W图像上显示清晰,便于网络分割。肿瘤旁的一些正常组织(图2E,箭头)与周围组织相比呈高信号。这可能导致肿瘤旁的正常组织被错误地识别为肿瘤(图2E)。该方法通过两条独立的路径从T1W和T2W图像中提取不同的特征,并将其融合在密集连通块中。如图2C,F所示,双序列MRI的高精度结果表明,不同的图像信息被融合为更准确的分割的有效特征。
提出的CNN模型在特征提取和特征分析方面显示出优势。如图A1所示,编码部的特征图可能具有较高的空间分辨率,但由于编码部是为提取肿瘤和正常组织的特征而设计的,因此没有强调肿瘤的特征。解码部分对编码部分的特征映射进行重构,输出分割结果,并在此过程中突出了肿瘤的特征。如图A1所示,解码器部分特征图上的肿瘤信号强度较高,但空间分辨率较低。跳层结构融合了编码器部分的高空间分辨率特征图和解码器部分的特征图。融合特征图显示肿瘤具有高空间分辨率和高信号强度。特征图表明,跳跃层提高了分割的准确率。综上所述,我们提出的网络在双序列MRI图像中显示了准确的鼻咽癌分割。
如表2所示,在10倍交叉验证实验中,该方法的平均差值为0.721,一些研究报告的差值比我们的要高。然而,在邓等人的研究中(10),Stefano等人(11),Song等人(8),Ma等人(12,18),以及Li等人(16),他们的方法不是完全自动的,用来在手动绘制的感兴趣体积中分割肿瘤。该方法实现了肿瘤的全自动分割。YANG等人(9)和Huang等人(17)在PET图像中利用肿瘤代谢信息,使肿瘤更容易被发现。Wang等人(4)仅对4例患者进行了评估。综上所述,我们提出了一种在双序列MRI图像中具有准确稳定性能的全自动分割方法。
我们提出的方法有一定的局限性。首先,患者样本量相对较少,且患者均来自单中心。为了进一步验证我们的方法,未来有必要进行更大样本的工作,特别是来自多中心的样本。其次,该方法对某些小淋巴结的分割效果不理想。如图3所示,部分正常淋巴结和肿瘤被错误识别。其原因可能是MRI轴位图像上正常淋巴结的图像特征与异常淋巴结的图像特征相似。在未来的工作中,我们可能会使DEU适应多视角MRI图像。第三,T1W和T2W图像的联合配准仍然具有挑战性。在今后的工作中,可以提出一种不需要共同配准的方法。
在本研究中,我们成功地提出并验证了一种基于DEU和双序列MRI图像的鼻咽癌自动分割方法。虽然DenseNet和UNET在肿瘤分割中都得到了广泛的应用,但目前还没有将它们结合起来用于双序列MRI鼻咽癌自动分割的文章。本文首次将该方法应用于鼻咽癌的自动切分中,取得了比其他方法更稳定、更好的效果。对于双序列图像,结合T1W和T2W图像的不同特征,提高了分割精度。DEU自动提取不同路径上的T1W和T2W特征,并结合密集连通块对特征进行融合,提高了准确率。10倍交叉验证结果表明,该方法取得了较好的效果。未来的研究可能旨在利用改进的网络结构或领域知识来提高分割精度,避免不同模态之间的共配准。如果进一步用大样本和多中心数据进行验证,我们提出的方法将用于鼻咽癌的临床实践。