Automated Breast Ultrasound Lesions Detection Using Convolutional Neural Networks
摘要:使用超声成像的乳腺病变检测被认为是计算机辅助诊断系统的重要步骤。在过去的十年里,研究人员已经证明了自动化初始病变检测的可能性。然而,当比较这些算法的性能时,缺乏公共数据集阻碍了研究。本文提出了使用深度学习方法进行乳腺超声病变检测,并研究了三种不同的方法:基于块(Patch)的LeNet、U-Net和具有预处理FCN-AlexNet的迁移学习方法。将它们的性能与四种最先进的病变检测算法(即径向梯度指数、多重分形滤波、基于规则的区域排序和可变形组件模型)进行比较。此外,本文还对从两种不同超声系统采集的两种常规超声图像数据集进行了比较和对比。数据集A包括306幅(60幅恶性和246幅良性)图像,数据集B包括163幅(53幅恶性和110幅良性)图像。为了克服该领域公共数据集的缺乏,数据集B将用于研究目的。结果表明,当在两个数据集上评估真阳性分数、每幅图像的假阳性和F-measure时,深度学习方法总体上有所改善。
索引词:乳腺癌;卷积神经网络;病变检测;迁移学习;超声成像
一、引言
乳腺癌是全球女性死亡的主要原因之一,预计超过8%的女性在一生中会患乳腺癌[1]。最常用和有效的乳腺癌检测技术是数字乳腺摄影(DM) [2]。然而,密集乳房中的DM成像有一些限制,其中病变与密集组织相比具有相似的衰减,因此它们可以被周围组织隐藏。目前,DM的一个重要替代方法是超声成像,由于其多功能性、安全性和高灵敏度,超声成像被用作乳腺癌检测的补充方法[3]。然而,超声成像比其他常用技术,如乳房x线照相术,更依赖于放射科医师。由于斑点噪声的复杂性和存在,解释超声图像需要有经验和训练有素的放射科医生。因此,计算机辅助诊断(CAD)能够有利于在基于超声的乳腺癌检测上帮助放射科医生,最大限度地减少超声成像的操作员依赖性的影响。不同的研究调查了CAD对诊断的影响[4],[5],并表明CAD是提高诊断敏感性和特异性的重要工具。任何CAD的第一个挑战是定位病变的能力。这一过程应该是自动化的,以帮助放射科医师有效地做出诊断,并期望高灵敏度和特异性。
乳腺研究缺乏公共标准数据集,这限制了对算法性能的公平评估。乳房超声图像的质量高度依赖于采集过程,并且不同超声系统之间存在巨大的可变性,这会影响通过算法获得的结果。病变的外观、位置和大小也会影响结果。
在这篇文章中,我们回顾了四种流行的肿瘤检测方法[6]–[9]。我们建议使用深度学习方法进行乳腺超声病变检测,并研究了三种不同的方法:基于块(Patch)的LeNet、U-Net和具有预处理FCN-AlexNet的迁移学习方法。然后在两个乳腺超声数据集(数据集A和数据集B)上比较深度学习方法和最先进算法的性能,并使数据集B可用于研究目的。迄今为止,我们是第一个在两个常见数据集上进行这种全面比较的人,并提出使用深度学习方法进行乳腺超声病变检测。
二、相关工作
本节描述了乳腺超声成像中病变检测的四种最先进的方法。所选方法中的两种,径向梯度指数(RGI)滤波[6]和多重分形滤波[7],是该领域引用最多的两个工作。这项研究还包括两个最近的方法,基于规则的区域排序[8]和可变形组件模型[9]。
E. 乳腺成像的深度学习
总的来说,最先进的方法并不稳健,尤其是基于图像处理的方法,依赖于基于规则的方法和特定的假设。在不需要这种强假设的情况下,深度学习方法已经在目标检测中显示出优越的准确性,这表明也可以提高乳腺超声中病变检测的技术水平。医学成像中的深度学习主要由卷积网络表示。根据他们的训练方式,他们主要可以分为以下几类:
1) 基于块(patch)的卷积神经网络方法。这种方法用图像块训练卷积神经网络,用滑动窗口方法进行测试[20],[21]。然而,将每个块(patch)馈送到网络是耗时的,并且块(patch)重叠产生大量冗余[22]。
2) 全卷积方法。为了避免计算冗余,Long等人[23]提出了一种全卷积方法,通过对整幅图像进行训练来提高效率。它通过像素预测而不是在每个图像的分类任务中的单一概率分布来产生分割。这种方法的修改版本的一个例子是U-Net [22]。
3)迁移学习法。最近在生物医学研究中广泛使用的另一种方法是迁移学习方法[24],[25]。该方法利用非医学图像的预训练模型,克服了医学图像研究中数据不足的局限性。
在乳腺成像方面,大多数现有出版物都侧重于使用CNNs进行乳房x线摄影(钼靶)。Dhungel等人[26]已经实现了用于块(mass)分割的深度学习;Mordang等[27]提出将CNNs用于微钙化检测;最近,Ahnet等人[28]提出在乳腺密度估计中使用CNNs。在乳腺超声成像中,Huynh等人[24]提出使用迁移学习方法进行超声乳腺图像分类。这是乳腺超声的唯一工作,但不包括病变检测。在这篇论文中,我们提出使用深度学习方法进行自动乳腺超声病变检测。为了展示深度学习方法的优势,我们将性能与上述四种(第二节A-D)最先进的病变检测算法进行了比较。
三、数据集
A. 综述
这项研究使用了两个不同的超声图像数据集。这些数据集是从不同规格和不同时间的超声系统中获得的。它们被称为数据集A和数据集B.
数据集A于2001年从乳腺影像专家的专业教学媒体文件中收集[16]。这些图像是由B&K医疗黑豹2002和B&K医疗鹰2102超声系统获得的,它们带有一个8–12兆赫的线性阵列换能器。数据集由来自不同情况的306幅图像组成,平均图像大小为377 × 396像素。这些图像包含一个或多个病变。在病变图像中,60个图像呈现恶性肿块,246个图像为良性病变。恶性影像中,27例诊断为浸润性导管癌,4例为导管原位癌,6例为恶性叶状肿瘤,23例为其他不明恶性病变。良性影像中,复杂囊肿74例,单纯性囊肿89例,纤维腺瘤55例,其他良性病变28例。为了获得数据集A,用户需要从Prapavesis等人[16]处购买教学媒体文件。
数据集B于2012年从萨巴德尔(西班牙)帕尔托公司的UDIA诊断中心收集,使用西门子ACUSON红杉C512系统17L5高清线性阵列换能器(8.5兆赫)。该数据集由来自不同女性的163幅图像组成,平均图像大小为760 × 570像素,其中每幅图像呈现一个或多个病变。在163幅病变图像中,53幅是癌性肿块图像,110幅是良性病变图像。恶性影像中,浸润性导管癌40例,导管原位癌4例,浸润性小叶癌2例,其他不明恶性病变7例。良性影像中,65个为不明囊肿,39个为纤维腺瘤,6个为其他类型的良性病变。请注意,在这两个数据集中,病变是由经验丰富的放射科医生描绘的。数据集B和乳腺病变的相应描绘将在网上(goo.gl/SJmoti)提供,用于研究目的。
B. 比较
图1显示了来自两个数据集的每一个的三幅图像,以表示三个方面的差异:斑点噪声、图像质量和病变外观。就散斑噪声而言,数据集A的图像显示出这种伪影的显著存在,但数据集B的图像不太明显,在数据集B中,散斑噪声被超声采集系统部分降低。由于分辨率不同,两个数据集的图像质量也不同。请注意,最近的超声设备生成数据集B的分辨率优于较旧的超声设备(数据集A)。因此,定义的结构(如肋骨、胸肌或实质组织)在数据集B中更明显。病变外观在两个数据集中也有所不同。在数据集B中,组织的外观比在数据集A中定义得更好,如图1(b)所示,其中甚至纤维腺瘤病变的内部结构也是可见的。
为了进一步评估数据集,我们比较了病灶大小、病灶面积与图像面积之比以及图像中心与病灶质心之间的距离。图2示出了这些比较的箱线图,其中两个数据集之间的差异是明显的:数据集A中病灶的平均大小小于数据集B(图2(a)),但是病灶像素和总图像像素之间的比率更高(图2(b))。关于图像中病灶的空间分布,数据集A中的病灶比数据集B中的病灶更集中(图2(c))。然而,这些差异都不显著。此外,诸如图像质量的其他特征可能影响病变检测结果的性能。
四、方法学
A. 卷积神经网络
深度学习是一种表征学习方法[29],它将从原始数据中自动发现适合特定任务的特征。特征提取器是特定于任务的,因为它们不是每次都固定于一组特定的规则[30]。每个网络包含多层,这些层导致学习过程中使用的分层特征[29],[31]
卷积神经网络(CNNs)[32]已经成为图像分析中的一项重要技术,特别是在人脸识别检测[33]、文本[31]、人体[34]和生物图像[35]的检测或识别中。然而,它还没有用于乳腺超声病变检测。出于这些原因,我们研究了CNNs在乳腺超声病变检测中的性能。
CNNs由卷积层和池化层组成[32],其中前者的作用是从一组可学习的滤波器中提取局部特征,后者的作用是合并相邻的模式,减少了先前表示的空间大小,并为平移增加了空间不变性[29]。CNNs是分级神经网络,其准确性取决于层的设计和训练方法[36]。
Caffe框架[30]中可用的一些受欢迎的CNNs是LeNet [31]、AlexNet [37]和GoogleNet [38]。我们研究了三种深度学习在乳腺病变检测中的应用:一种使用LeNet [31]、U-Net [22]的基于块的方法和一种使用全卷积网络的迁移学习方法[23]。
1) Patch-based LeNet: 由于数据集中的超声乳腺图像是灰度的,并且乳腺病变的尺寸相对较小,因此选择LeNet [31]作为解决两类分类问题的合适架构。训练和验证图像作为来自包含不规则乳腺病变和正常组织的图像区域的块输入。这些输入块的大小为28 × 28,与LeNet的输入大小相关。LeNet架构很简单,最初是为数字分类而创建的[31]。乳腺病变包含类似的梯度,可通过CNNs揭示。整体架构可以在图3中看到,输入包括乳房病变和正常组织的图像块。输入馈入第一个卷积层和最大池化层,重复一次,最后由两个完全连接的层完成。输出的最终数量是2个神经元,这是为两个类别生成的激活:病变和非病变。CNN的最后一部分是类概率的输出,用于测量最终完全连接的参数相对于训练和验证数据的真实标签的接近程度。使用带有softmax分类器的多项式逻辑损失计算损失。
我们网络的输出是对图像块是病变还是健康乳腺组织的预测。它由带有softmax函数的两个完全连接的层组成,定义为
其中是类分数的第个元素,是任意实值分数的向量,这些实值分数被缩放成0和1之间值的向量,这些值加起来等于1。损失函数的定义使得在训练期间有好的预测,相当于有小的损失。
第一个全连接层包括一个整流线性单元(ReLU)层。对于Caffe框架[30],这种按元素计算的操作是就地计算的,因此节省了一些内存。它被定义为
其中函数将激活阈值设定为零。
对于测试图像,使用28×28像素的滑动窗口,步长为1,分割预测的病变块。通过经验实验,从分割图像中去除面积小于10个像素的未连接区域,以减少误报(假阳性)。分割区域的中心点被记录为种子点。
2) U-Net: U-Net是全卷积网络[22]的改进和扩展版本,可以克服生物医学成像研究中对大规模数据集的需求。这是一个基于跳跃连接CNN的编码器-解码器。Ronneberger等人[22]提出了U-Net,以便能够使用数据增强,包括使用非刚性变形,从而充分利用可用的带注释的样本图像来训练模型。这些方面表明,就目前使用的可用数据集的规模而言,U-Net有可能提供令人满意的结果。
3) Transfer Learning: 迁移学习是一个过程,其中训练一个CNN来学习一个广泛领域的特征,然后改变分类函数来优化网络,以学习一个更具体领域的特征。在这种设置下,特征和网络参数从宽域转移到特定域。我们提出的迁移学习方法是基于语义分割的全卷积网络(FCN-AlexNet)[23]。FCN-AlexNet是原始AlexNet分类模型的全卷积网络版本,对网络层进行了一些调整以进行分割[23]。该网络最初用于在ImageNet数据集上对1000个不同类别的对象进行分类[37]。
B. 性能指标
病变检测是计算机辅助设计的初始阶段,大多数情况下,它使用检测到的病变位置作为种子点,随后初始化分割算法。文献中的大多数乳腺超声病变检测方法使用种子点检测作为标准来评估它们的算法。在目前的实践中,放射科医生用四个叉来标注矩形感兴趣区域。基于这四个极端点(顶部、底部、左侧和右侧),我们生成了一个边界框,如图5所示。如果检测点(分割区域的中心)位于放射科专家的边界框内,则检测被视为真阳性。否则,它被认为是假阳性。
在本文中,我们通过使用真阳性分数(TPF)和每张图像假阳性(FPs/image)来比较乳腺超声研究中病变检测技术的性能[6]–[8]:
TPF测量方法的灵敏度。一些算法能够检测多个病变,而一些算法仅能够检测单个病变。TPF允许公平的测量,因为它测量的是检测到的病变总数与实际病变总数之比。因此,如果一种方法可以在具有多个病变的图像中仅检测一个病变,则该方法的TPF将低于能够检测多个病变的方法。
除了TPF和FPs/图像之外,F测度(召回率和精确度的加权调和平均值)[39]的计算公式如下:
C. 实现
值得一提的是,DPM [9]和多重分形滤波[7]的实现是由原作者提供的,而RGI滤波[4]和RBRR [8]的实现是按照他们各自论文中的描述精确地重新实现的。
为了在数据集上获得最先进方法的最佳性能,我们定义了一些参数。对于基于规则的区域排名,由于[8]中的大多数病变出现在图像的顶部区域,因此*窗口在图像的中上部初始化。此外,在散斑减少各向异性扩散(SRAD)过程中,迭代时间被设置为50。在多重分形滤波[7]中,cell尺寸的顺序被指定为 = -1, = 3.
DPM方法[9]已经用每个根过滤器的3个组件和8个部件的混合模型进行了训练。这些参数是在以前的一项研究[40]中选择的,该研究评估了不同配置的DPM参数,以便在乳腺超声图像中获得最佳结果。对于可用图像的数量,我们将训练和测试流程配置为10折交叉验证。这种方法大大增加了训练阶段的计算成本,但允许对方法进行更准确的评估。
本研究提出的基于图像块的CNNs方法是LeNet框架[31]。乳腺超声图像是灰度级的,被分成28 × 28的小块。该网络使用均方根传播(RMSProp)进行训练,学习率为0.01,60个时期的Dropout率为0.33。实验使用10折交叉验证运行。
对于U-Net实现,训练数据包括原始超声乳腺图像和真实训练标签,如图4所示。我们使用10折交叉验证来评估模型的性能。使用Adam优化器[41]训练网络,学习率为0.0001和300个时期。本研究提出的迁移学习方法的训练数据是乳腺超声图像和真实训练标签(如图4所示)。我们使用Caffe [30]框架来实现FCN-AlexNet。我们使用10折交叉验证对模型进行了评估。我们使用随机梯度下降训练模型,学习率为0.001,60个时期的Dropout率为33%。epochs的数量保持在60如[42]一样,当我们进行经验实验时已经发生了收敛。
五、结果与讨论
图5显示了乳腺病变检测的结果,其中第1行呈现来自数据集A的图像,具有明确的病变边界和正常组织的明显外观(强度值和纹理)。这是所有检测方法都能正确识别病变的最佳情况。第2行显示了数据集B中的一个病例,其中病变的外观接近正常组织,病变的位置接近顶部。在这种情况下,只有DPM和CNNs正确检测到病变。依赖于病变位置的方法未能检测到病变。第3行描述了数据集A中的一个病例中有复杂阴影的情况。除了提出的CNNs外,没有一种最先进的方法能够检测到病变。最后,第4行显示了一个病例,其中由于病变尺寸小,没有一种方法能够检测到病变。
定量结果如表一所示。这些结果是根据真阳性率(TPF)、每幅图像的假阳性率(FPs/图像)和F-measure提供的。在单个数据集上进行训练和测试时,迁移学习FCN-AlexNet在病变检测方面优于其他方法,数据集A的TPF为0.98,FPs/image为0.16,F-measure为0.91;数据集B的TPF为0.92,FPs/image为0.17,F-measure为0.89。据观察,U-Net的性能低于基于块的LeNet(Patch-based). DPM在TPF取得了良好的结果,数据集A为0.80,数据集B为0.79,F-measure值与CNNs相当。深度学习方法和DPM实现了低FPs/图像。多重分形滤波[7]和RBRR [8]对于数据集A中的图像获得了良好的结果,TPF分别为0.76和0.75,但是对于数据集B中的图像却没有(TPF分别为0.59和0.60)。多重分形滤波的平均FPs/图像低于RBRR滤波。最后,RGI滤波[6]在两个数据集(0.76和0.72)中显示了良好的TPF性能,但是具有高的FPs/图像和差的F-测度。
基于图像处理的方法(RGI滤波[6]、多重分形滤波[7]和基于规则的区域排序[8])在处理来自两个不同的US系统的图像时不一致,效果较差。一种解释是,大多数方法考虑了它们的数据集的特征,例如病变位置、斑点噪声的影响或病变的外观。这些特征在另一个数据集中可能不同,这降低了算法的准确性。
数据集B是从现代超声系统中获得的,这给现有的病变检测技术带来了新的挑战。这些US系统获取高分辨率图像,其中可能包括肋骨、胸肌或肺部空气等其他结构,这使得病变检测更加困难。数据集A是从一个较旧的超声系统获得的。图像的性质通常具有较低的分辨率和较高的噪声水平。为了更好地可视化,放射科医师倾向于将可疑病变放置在图像的中心。如今,使用高质量的超声系统,这不再是必要的,因为一幅图像可以捕获乳房的更大区域。因此,当使用现代超声系统时,假设病变位于图像中心的方法在更多情况下会失败。
在乳腺病变检测中具有更好结果的技术是机器学习和深度学习方法,其中迁移学习FCN-AlexNet总体表现最好。这是因为这些方法采用了一个训练过程,这有助于该方法构建每个数据集的特定模型。训练阶段模拟不同数据集的适应过程。因此,它不像其他方法那样依赖数据集。然而,这种方法有一些缺点。主要缺点是训练过程耗时,需要一组有代表性的正常图像。在超声检查中获取这些图像在临床环境中并不常见。
为了研究深度学习方法在不同数据集上的鲁棒性,我们通过组合两个数据集(A+B)进行了实验—这总共形成了356个良性病变和113个恶性病变。通过使用方法中概述的类似设置,结果显示在表二的最后三行中。总的来说,迁移学习FCN-AlexNet在数据集A上表现最好,TPF略有改善,为0.99,FPs/图像为0.16(未改变),F-measure为0.92。对于数据集B,最佳TPF为0.93,由迁移学习FCN-AlexNet实现,但总体最佳结果是基于块的LeNet,FPs/图像为0.09,F-measure为0.91。这些结果表明,有监督的深度学习方法是数据驱动的,并且随着训练数据的增加,性能得到改善。对于许多深度学习应用,需要收集大量有代表性的训练和测试数据,以实现高精度[43]。
我们探讨了在一个数据集上进行训练,在另一个数据集上进行测试的可能性。用U-Net对数据集B进行训练,对数据集A进行测试,结果TPR为0.83,FP/Image为0.08,F-measure为0.87。在数据集A上训练,在数据集B上测试,结果为0.70 TPR,0.66 FP/image,0.59 F-measure。该实验表明,在不同于测试集的一个数据集上训练是不理想的。组合数据集为框架提供了改进的训练。
六、结论
本文研究了三种深度学习方法(基于补丁的LeNet、U-Net、迁移学习FCN-AlexNet)的使用,并对乳腺超声病变检测中最具代表性的病变检测方法进行了综合评估。在两个数据集上对TPF、FPs/图像和F-measure性能进行了评估。
在本文讨论的不同方法中,迁移学习FCN-AlexNet在数据集A上取得了最好的结果,而所提出的基于块的LeNet在FPs/图像和F-测度方面在数据集B上取得了最好的结果。DPM和深度学习方法适用于任何数据集的特定特征,因为这些是基于机器学习的,并且为每个数据集构建了特定的模型。然而,这种方法的局限性在于它们需要一个训练过程和实验中的负相关图像。对于进一步的研究,我们断言深度学习方法可以适用于其他医学成像技术,如三维超声或弹性成像。
病变检测是计算机辅助设计系统的第一步。因此,未来的工作将侧重于通过增加更多的训练数据来提高准确性,将我们的工作扩展到乳腺超声病变分割和分类,并评估完整的计算机辅助设计框架的性能。