Deep Deconvolutional Neural Network for Target Segmentation of Nasopharyngeal Cancer in Planning Computed Tomography Images
深度反卷积神经网络在规划CT图像中的鼻咽癌目标分割
发表期刊:frontiers in Oncology 发表日期: 2017年
中科院SCI期刊分区:3区 大类学科:医学 小类学科:肿瘤学
Background
放射治疗是鼻咽癌的主要治疗方法之一。它要求在计划的CT图像中准确地描绘鼻咽大体肿瘤体积(GTVnx)、转移淋巴结大体肿瘤体积(GTVnd)、临床靶区体积(CTV)和危险器官。然而,这项任务非常耗时且依赖于操作员。在本研究中,我们开发了一种端到端的深度反卷积神经网络(DDNN)来分割这些目标。
Methods
提出的DDNN是一种端到端架构,可实现快速训练和测试。它由两个重要组件组成:编码器网络和解码器网络。编码器网络用于提取医学图像的视觉特征,解码器网络用于通过展开反卷积来恢复原始分辨率。本研究共纳入230例鼻咽癌患者,诊断为鼻咽癌I期或II期。随机选取184例患者的数据作为训练集来调整DDNN的参数,其余46例患者作为测试集来评估模型的性能。使用Dice相似性系数(DSC)对GTVnx、GTVnd和CTV的分割结果进行量化。此外,还将DDNN的性能与VGG-16模型进行了比较。
Results
所提出的DDNN方法在所有的分割结果上都优于VGG-16。DDNN的DSC平均值分别为GTVnx、GTVnd和CTV的80.9%、62.3%和82.6%,而VGG-16的DSC平均值分别为72.3%、33.7%和73.7%。
Conclusion
利用DDNN可以准确地分割GTVnx和CTV。由于GTVnd的形状、体积和位置在患者之间有相当大的差异,因此GTVnd分割的准确性相对较低。随着更多的训练数据和MR图像的组合,准确率有望提高。总而言之,DDNN有可能提高轮廓的一致性和简化放射治疗工作流程,但需要仔细的人工审查和大量的编辑工作。
Keywords
automatic segmentation, target volume, deep learning, deep deconvolutional neural network, radiotherapy
Introduction
鼻咽癌(NPC)是我国南方常见的恶性肿瘤。放疗是鼻咽癌的主要治疗手段之一,其迅速发展对提高肿瘤控制率起到了重要作用。在过去的二十年中,调强放疗和容积调强放疗(VMAT)已经成为治疗鼻咽癌的最先进的方法(1,2)。这些技术可以促进肿瘤靶区的剂量递增,同时改善危险器官的保护,而且靶区边界的剂量分布通常具有陡峭的梯度。现代治疗计划系统(TPS)要求精确勾画鼻咽部大体肿瘤体积(GTVnx)、转移淋巴结大体肿瘤体积(GTVnd)、临床靶区(CTV)以及在计划CT图像时要注意的OARs(风险器官),以便反向优化放射治疗计划。该任务是一种图像分割,通常由放射肿瘤学家根据推荐指南(例如RTOG 0615协议)手动执行。然而,手动分割(MS)过程耗时且依赖于操作员。据报道,单个头颈部(H&N)癌的分割平均需要2.7h(3)。在鼻咽癌放射治疗过程中,由于肿瘤反应或明显的解剖学改变和改变,这项耗时的工作可能会重复几次。此外,分割的准确性高度依赖于放射肿瘤学家的知识、经验和偏好。在许多研究(4-7)中,已经注意到这些感兴趣区域(ROI)的分割在观察者之间和观察者内部存在相当大的差异。
因此,放射治疗的全自动分割方法有助于将放射肿瘤学家从劳动密集型方面的工作中解脱出来,并提高ROI描绘的准确性、一致性和可重复性。“基于图集的分割”(ABS)(8-10)将先验知识融入到分割过程中,是目前应用最广泛、最成功的生物医学图像分割技术之一。在这种类型的方法中,使用可变形配准技术计算要分割的目标图像与包含一些ground truth分割的单个地图集或多个地图集之间的最佳变换。然后,通过配准变换将地图集图像中的所有标记结构自动传播到目标图像上。ABS已成为H&N放射治疗(11-17)中自动勾画靶点和/或OARs的常用方法,因为其结果可接受,且操作模式完全无人监督。Hanet al.(11)使用地图集中的物体形状信息来解释较大的对象间形状差异。Sjöberg等人(12)多地图集融合比单一地图集分割提高了分割精度。陶等人(13)采用ABS减少观察者间的偏差,提高桨的剂量学参数一致性。Tegeh et al.(14)使用ABS评估自动等高线,发现它是快速描绘的有用工具,尽管编辑是不可避免的。Sims等人(15)对ABS进行了临床前评估,显示其敏感性令人满意,但需要仔细审查和编辑。Walker等人(16)得出结论:ABS在H&N产生ROI方面是节省时间的,但主治医生的批准仍然至关重要。然而,使用ABS方法有两个主要挑战。首先,由于人体器官的解剖学差异,很难建立一个涵盖所有人体器官的“通用地图集”。根据患者的体型和体型,ROI可能有很大的不同。要从所有的图谱图像中构建特定于患者的图谱,需要考虑到变异性,但对于形状和外观变异性较大的目标图像来说,这是很困难的。第二,使用ABS的一大缺点是将目标图像配准到其图集图像(18)所涉及的巨大的计算时间。此外,通常需要将目标图像与多个地图集对齐,这将使配准过程增加数倍。
深度学习方法在许多计算机视觉任务中取得了巨大的成功,例如图像分类(19-21)、目标检测(22-23)和语义分割(24-26)。卷积神经网络(CNNs)已经成为深度学习中最流行的算法(21,27)。CNN由交替的卷积层和池化层组成,用于自动提取多层次视觉特征,并在计算机辅助诊断和自动医学图像分析方面取得了重大进展(28-31)。Melendez等人(29)将多实例学习应用于胸片结核病检测,AUC为0.86。Hu等人(30)提出了一种基于CNNs和全局优化表面进化的肝脏分割框架,得到了97%的平均Dice相似系数(DSC)。Esteva等人(31)使用大数据集训练CNN对皮肤癌进行分类,并取得了比皮肤科医生更高的准确率。此外,CNNs已被应用于许多器官和亚结构的分割,如细胞(32)、细胞核(33)、血管(34)、神经元结构(35)、脑(36)、脑室(37)、肝脏(38)、肾脏(39)、胰腺(40)、前列腺(41)、膀胱(42)、结肠(43)和脊椎(44),与最先进的方法相比,重叠程度相对更好。然而,这些研究大多局限于放射学领域。
此外,人们对将CNNs应用于放射治疗越来越感兴趣(45-48)。最近,Ibragimov和Xing(49)使用CNNs对H&N CT图像中的分线器官进行分割,得到的DSC值从交叉的37.4%到下颌的89.5%不等。这是关于放射治疗中CNNs勾画OAR的第一篇报道,但没有分割靶点。在这项工作中,我们开发了一种深度反卷积神经网络(DDNN),用于分割鼻咽癌放射治疗中的CTV、GTVnx和GTVnd。实验结果表明,DDNN可以在CT图像规划时实现鼻咽癌目标的分割。DDNN是一种端到端架构,由两个重要组件组成,包括编码器和解码器。与典型的CNN不同,我们在解码网络上进行反向卷积,从低分辨率的特征图重建高分辨率的特征图。我们的工作是首次尝试将DDNN应用于鼻咽癌放射治疗计划中的靶点自动分割。
Materials and Methods
Data Acquisition
本研究纳入2011年1月至2017年1月在我科接受放射治疗的230例鼻咽癌I期或II期患者。所有患者均在仰卧位用热塑面罩(头、颈、肩)固定。模拟对比CT数据在Somtom Definition AS 40(Siemens Healthcare,Forchheim,德国)或Brilliance CT Big Bill(飞利浦医疗,Best,荷兰)系统上采集,设置为具有对比度增强的螺旋扫描模式。CT图像重建矩阵大小为512×512,厚度为3.0 mm。采集所有患者的MR图像,以辅助靶点的确定。放射肿瘤学家使用Pinnacle TPS(飞利浦放射肿瘤系统,美国威斯康星州菲奇堡)系统在计划CT中勾勒出GTVnx、GTVnd、CTV和桨的轮廓。GTVnx定义为鼻咽部原发肿块。GTVnd定义为转移性淋巴结。CTV(CTV1+CTV2)包括GTVnx、GTVnd、咽旁间隙、鼻腔后1/3、上颌窦、翼突、翼腭窝、筛窦后半部、海绵窦、颅底、蝶窦、斜坡前半部、岩尖、高危淋巴引流区(包括双侧肾后区)。
DDNN Model for Segmentation
在本研究中,我们引入了一种DDNN模型来分割放射治疗的靶鼻咽癌。DDNN是一个端到端的分割框架,可以预测CT图像中的像素类别标签。图1描述了建议模型的流程图。如图2所示,DDNN网络由两个重要组件组成,包括编码器部分和解码器部分。==编码器网络由13个卷积层组成,用于特征提取,用于提取医学图像的视觉特征,解码器网络通过展开反卷积恢复原始分辨率。具体地说,编码器网络层基于用于高质量图像分类的VGG-16架构(21)。与VGG-16不同的是,我们在解码网络上进行反向卷积,从低分辨率重建高分辨率的特征图。此外,为了完成分割任务,我们用全卷积层替换了完全连通的层。==通过自适应,网络可以实现CT图像的像素分割。有关该架构的更多技术规范,请参阅附录。
Experiments
从230名患者中随机抽取184名患者的数据作为训练集来调整DDNN模型的参数,其余46名患者作为测试集来评估模型的性能。在这项工作中,我们使用流行的深度学习框架Caffe(50)实现了模型的训练、评估、误差分析和可视化流水线,然后使用cuDNN(51)计算内核进行编译。在实验中,我们采用了数据增强技术,如随机裁剪和翻转,以减少过拟合。我们使用带动量的随机梯度下降来优化函数的损失。我们将初始学习率设置为0.0001,将学习率衰减因子设置为0.0005,将衰减步长设置为2,000。我们没有使用固定的步数,而是训练我们的模型,直到训练集的平均精度收敛,然后使用验证集对模型进行评估。我们在所有实验中都使用了NVIDIA Titan XP GPU。
Quantitative evaluation
共有46名患者被用来评估该模型的性能。MS被定义为由经验丰富的放射肿瘤学家产生的参考分割。提取并标记属于MS的所有体素。在测试阶段,对所有的二维CT切片逐一进行测试。输入的是二维CT图像,最终输出的是像素级分类,这是最有可能的分类标签。测试了该方法的性能,并与GTVnx、GTVnd和CTV的分割结果进行了比较。采用DSC和Hausdorff距离(H)对结果进行量化。
DSC的定义如公式所示。1如下:
其中A表示MS,B表示自动分割结构,A∩B表示A和B的交集。DSC值介于0和1之间,其中0表示完全没有交集,1表示结构A和B的完全重叠。
Hausdorff距离(H)定义为
‖.‖是A和B点上的一些基本范数,随着H(A,B)的减小,A和B之间的重叠度增加。
此外,还将DDNN与VGG-16的性能进行了比较。用DDNN和VGG-16之间的配对t检验分析了三个目标(GTVnx、GTVnd和CTV)的平均DSC和Hausdorff距离值。所有分析都是在p值设置为<0.05的情况下进行的。
Results
图3和表1总结了所有受试患者的结果以及GTVnx、GTVnd和CTV值。DSC值显示,所提出的DDNN自动分割显示出比基于VGG-16的自动分割更好的总体一致性。DDNN的平均DSC值比VGG-16的平均DSC值高15.4%(75.3±11.3比59.9±22.7%,P<0.05)。DDNN自动勾画GTVnx和CTV效果较好,DSC值分别为80.9%和82.6%。这些值显示了自动分割的等高线和手动等高线的合理体积重叠。自动生成的GTVnd的质量勉强令人满意,平均DSC值为62.3%。与VGG-16相比,DDNN使所有靶点的Hausdorff距离值减小(12.6±11.5比23.4±24.4,P<0.05)。
图4-6分别显示了测试用例的CTV、GTVnx和GTVnd的自动分割。在这些例子中,使用DDNN的CTV和GTVnx的自动分割轮廓接近MS轮廓,尽管存在不一致。只需进行少量校正即可验证自动分割。然而,对于GTVnd的分割,在形状、体积和位置上与MS存在一定的偏差。
Discussion
我们设计了一种自动分割鼻咽癌CT图像的方法。据我们所知,这项任务以前没有报道过。实验结果表明,本文提出的DDNN算法能够从鼻咽部CT数据中学习语义信息,并对目标进行高质量的分割。我们将所提出的架构与流行的Deeplab v2 VGG-16模型进行了比较。这一比较表明,我们的方法取得了更好的分割效果。我们的DDNN方法部署了更深层的编解码器神经网络,它使用卷积滤波器来提取特征,并部署反卷积滤波器来恢复原始分辨率。因此,比双线性插值更能学习/预测详细的分割结果。
靶区勾画的一致性是提高放射治疗效果的关键。Leunens等人(52)表明观察者间和观察者内的差异是相当大的。卢等人(53)研究了H&N患者GTV轮廓的观察者间差异,报告的DSC值仅为75%。Caravatta等人(54)评价不同放射肿瘤科医师CTV勾画的重叠准确率,DSC为68%。自动分割有可能减少医生之间轮廓的可变性,并提高效率。只有在不影响准确性的情况下,效率和一致性方面的收益才是有价值的。分割方法的准确性评估是复杂的,因为没有共同的数据库或目标卷可供比较。放射治疗计划自动分割的评价通常采用DSC值,从而为比较提供了合理的依据。显然,与已有的主题自动切分研究相比,我们的方法表现出了较好的性能。此外,这种自动分割方法是基于图谱和/或模型的,并且没有使用深度学习方法对GTV或CTV进行分割的报道。关于目标,比较是困难的,因为N阶段(通常是N0)和选定的水平在不同的研究之间有很大的不同。不同文献报道CTV的DSC平均值分别为60%(55)、60%(8)、60%(56)、67%(14)、77%(57)、78%(58)、79%(59)和80.2%(60),而DDNN的DSC值为82.6%。关于GTVnx和GTVnd自动分割的报道很少。对于GTVnx的分割,DSC值被报道为69.0%(58)和75.0%(61),而我们提出的方法显示出80.9%的高DSC值。文献报道的GTVnd分割得到的DSC值为46.0%(62),我们的方法显示DSC值为62.3%。不公平地说,我们提出的算法是优越的,因为虽然与已发表的方法不是在相同的数据集上进行比较;但是,得出DDNN结果良好的结论是合理的。同时,该方法以端到端的形式进行学习和预测,无需后处理,使得整个网络的推理时间在数秒之内。
虽然GTVnd的分割准确率比以前报道的要好,但仍然太低。造成这一缺陷的原因有几个。首先,这一低结果是由于在基于CT的勾画中缺乏软组织对比度。其次,GTVnd通常不具有恒定的图像强度或清晰的解剖边界,与CTV和GTVnx相比,其形状和位置在不同患者之间差异更大。此外,N0患者中没有GTVnd区域,这些患者也包括在我们的训练和测试集中。所有这些因素都会阻碍DDNN模型学习稳健的特征和进行准确的推理。因此,目前GTVnd的分割精度还不能令人满意。Zijdenbos等人(63)表明DSC值>70%表示良好的重叠。虽然CTV和GTVnx的分割准确性超过了这一标准,但主治医生的监督仍然至关重要。靶体积的定义不完善,然后用于治疗计划,可能会导致靶体积剂量不足或过量输送到正常组织。因此,所提出的方法不能以无监督的方式应用于临床。可能需要人工审查和大量编辑。
我们的研究有几个局限性。首先,使用针对N0和N+患者的训练模型来评估测试集,包括N0和N+患者。这可能会使模型难以收敛,并降低预测的准确性。其次,只有一名医生为每个病人描绘了目标,但所有的病人都是由几个观察者描绘的。尽管专家根据相同的NPC指南绘制了目标轮廓,但在所有情况下仍存在观察者间的可变性。我们不能排除这种可能的偏差,这对DDNN方法提出了挑战。我们研究的另一个局限是所有纳入的患者都是I期或II期。不同阶段的靶点可能具有不同的对比度、形状和体积,从而影响自动分割的性能。
本文主要研究从CT图像中分割鼻咽癌目标。然而,H&N的MR图像具有更好的软组织对比度,GTV的勾画往往依赖于MR图像。此外,功能性磁共振可以精确定位肿瘤。在未来,DDNN有望与MR或其他类型的图像相结合,以改善目标体积的勾画。训练集只包括184名患者。增加训练数据量可以使DDNN模型更稳健,提高分割精度。随着目标可视化水平的提高和分割算法的进一步完善,自动分割的准确率有可能提高。
Conclusion
准确、一致地勾画肿瘤靶点和风险器官在放射治疗中尤为重要。一些研究集中在使用深度学习方法的风险器官的分割上。本研究提出了一种利用DDNN结构自动分割鼻咽癌I期或II期CT图像的方法。结果表明,DDNN可用于GTVnx和CTV的高精度分割。由于患者在形状、体积和位置上的显著差异,GTVnd分割的准确性相对较低。随着多模态医学图像和更多训练数据的增加,性能有望得到改善。总而言之,DDNN有可能提高轮廓的一致性和简化放射治疗工作流程,但需要仔细的人工审查和大量的编辑工作。
Appendix
深度反卷积神经网络(DDNN)的体系结构
如图2所示,提出的DDNN的体系结构由两个部分组成,每个部分都有自己的角色。编码器网络由13个卷积层组成,用于特征提取。所有卷积层的核的窗口大小为3×3,步长为1,填充为1像素。此外,在每个卷积层之后有一个批次归一化选项,然后应用逐个元素校正的线性非线性函数max(0,x)。在v1_2、v2_2、v33、v43、cv5_3、de_cv5_1和de_v4_1层之后添加了合并选项,以获得健壮性特征。具体地说,本工作中医学图像的输入大小被裁剪为417×417,具有3个通道。Conv1_1和Conv1_2将输入数据卷积为417×417×64,然后使用核大小为3×3、步长为2、填充为1像素的池化选项将输入缩减为209×209×64个特征地图。类似地,Conv2_1和Conv2_2层以pool1为输入。该算法采用3×3卷积,步长为1,填充1像素,生成105×105×256张特征地图,然后用pool2进行池化,再用v3、v4、v5进行卷积。池4和池5的最大合并选项为3×3滤波器大小、padding=1和stride=1,产生53×53×512的输出。由于池化选项减小了特征地图的空间大小,因此需要将特征地图恢复到原来的空间大小才能完成分割任务。以往的方法大多采用双线性插值来获得高分辨率的图像,然而对于鼻咽癌来说,粗略的分割并不足以产生良好的效果。因此,译码部分部署了以pool5为输入的深度反卷积神经网络和一系列反卷积层进行上采样。所有的反卷积层均采用3×3的卷积,填充大小为1,在去卷积5_3、去卷积4_3和去卷积3_3时,步长设置为2,其余的步长设置为1。经过8倍放大后,特征图恢复到与输入相同的高分辨率。在FC6和FC7层,用1×1卷积代替全连通层。这样,我们就可以对分割任务进行像素级分类。最终输出为每个像素生成预测标签。