3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation论文翻译笔记

文章目录


前言

3D U-Net论文翻译
3D-U-Net:从稀疏标注学习密集体分割


一、论文翻译

摘要:本文介绍了一种从稀疏标注的体积图像中学习的体分割网络。我们概述了这种方法的两个有吸引力的用例:(1)在半自动设置中,用户注释要分割的卷中的一些切片。该网络从这些稀疏注释中学习,并提供密集的三维分割。(2) 在全自动设置中,我们假设存在一个具有代表性的、稀疏注释的训练集。在这个数据集上训练,网络密集地分割新的体积图像。该网络扩展了Ronneberger等人的u-net结构,将所有的2D操作替换为3D操作。该实现执行动态弹性变形以在训练过程中实现有效的数据扩充。它是从头开始端到端训练的,即不需要预先训练的网络。我们在一个复杂的、高度可变的三维结构非洲爪蟾肾脏上测试了该方法的性能,并在两个用例中都取得了良好的结果。
关键词:卷积神经网络,三维,生物医学体积图像分割,爪蟾肾,半自动,全自动,稀疏标注

1 介绍

  在生物医学数据分析中,体积数据非常丰富。由于计算机屏幕上只能显示二维切片,因此用分割标签标注此类数据会带来困难。因此,以逐片的方式对大体积进行注释是非常乏味的。因为相邻的切片显示几乎相同的信息,所以它的效率也很低。特别是对于需要大量注释数据的基于学习的方法,三维体的完整注释并不是创建具有良好通用性的大型和丰富的训练数据集的有效方法。
3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation论文翻译笔记

  在本文中,我们提出了一种深度网络,它学习生成密集的体积分割,但只需要一些带注释的二维切片进行训练。如图1所示,该网络可以以两种不同的方式使用:第一个应用案例仅针对稀疏注释数据集的加密;第二个应用案例从多个稀疏注释数据集学习以推广到新数据。这两个案例都非常相关。
  该网络基于先前的u-net架构,由收缩编码器部分分析整个图像和连续扩展解码器部分产生全分辨率分割[11]。虽然u-net是一个完全二维的体系结构,但本文提出的网络以三维体作为输入,并对其进行相应的三维操作,特别是三维卷积、三维最大池和三维上卷积层。此外,我们还避免了网络体系结构中的瓶颈[13],并使用批处理规范化[4]来加快收敛速度。
  在许多生物医学应用中,只需要很少的图像就可以训练出一个具有良好泛化能力的网络。这是因为每个图像已经包含了具有相应变化的重复结构。在体积图像中,这种效果更加明显,因此我们可以在两个体积图像上训练网络,以便推广到第三个。加权损失函数和特殊的数据扩充使我们只需要少量的人工标注切片,即从稀疏标注的训练数据中训练网络。
  我们展示了该方法在非洲爪蟾肾脏困难的共焦显微数据集上的成功应用。在其发育过程中,爪蟾肾脏形成了一个复杂的结构[7],这限制了预定义参数模型的适用性。首先,我们提供定性的结果来证明从几个注释切片加密的质量。这些结果得到了定量评估的支持。我们还提供了实验,说明了带注释切片的数目对网络性能的影响。基于Caffe[5]的网络实现作为开源[1]1提供。

1.1 相关工作

目前,CNNs能够以接近人类表现的精度对具有挑战性的生物医学2D图像进行分割[11,12,3]。由于这一成功,在生物医学体积数据上应用三维CNNs已经做了一些尝试。Milletari等人[9]提出了一种CNN结合Hough投票的3D分割方法。然而,他们的方法不是端到端的,只适用于紧凑的团状结构。Kleesiek等人[6]的方法是少数用于三维分割的端到端三维CNN方法之一。然而,它们的网络并不深,在第一次卷积之后只有一个最大池,因此无法在多尺度上分析结构。我们的工作基于2du-net[11],它在2015年赢得了多个国际细分和跟踪比赛。u-net的体系结构和数据扩充使得学习模型只需要少量的注释样本,就具有很好的泛化性能。它利用了这样一个事实,即适当地应用刚性变换和轻微的弹性变形仍然可以产生生物学上合理的图像。向上卷积的体系结构,如用于语义分割的完全卷积网络[8]和u-net,仍然没有得到广泛的推广,我们只知道有一次尝试将这种体系结构推广到3D[14]。在Tran等人的这项工作中,该体系结构被应用于视频,完整的注释可用于训练。本文的亮点在于,它可以从零开始训练稀疏注释的卷,并且由于其无缝平铺策略,它可以处理任意大的卷。

2 网络结构

  图2说明了网络体系结构。与标准的u-net一样,它有一个分析和合成路径,每个路径有四个分辨率步骤。在分析路径中,每一层包含两个3×3×3卷积,每个卷积后跟一个校正线性单元(ReLu),然后是一个2×2×2最大池,每个维度的步长为2。在合成路径中,每一层由一个2×2×2的上卷积和两个3×3×3的卷积组成,每个卷积之后是一个ReLu。分析路径中具有相同分辨率的图层之间的快捷连接提供了基本的高分辨率特征。在最后一层中,1×1×1卷积将输出通道的数量减少到标签的数量,在本例中为3。该体系结构共有19069955个参数。正如[13]中所建议的,我们通过将最大池之前已经存在的通道数增加一倍来避免瓶颈。在合成路径上也采用了这种方案。
3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation论文翻译笔记
  网络的输入是图像的132×132×116体素块,其中有3个通道。最后一层的输出分别是x、y和z方向的44×44×28个体素。当体素大小为1.76×1.76×2.04µm3时,预测分割中每个体素的近似感受野变为155×155×180µm3。因此,每个输出体素都可以访问足够的上下文来有效地学习。
  我们还在每个ReLU之前引入批处理规范化(“BN”)。在[4]中,每个批次在训练过程中用其平均值和标准偏差进行归一化,并使用这些值更新全局统计数据。接下来是一个明确学习比例和偏差的层。在测试时,通过这些计算出的全局统计量和学习的标度和偏差进行归一化。然而,我们有一个批量大小的一个和几个样品。在这样的应用程序中,在测试时使用当前的统计数据也是最有效的。
  该体系结构的重要部分是加权softmax损失函数,它允许我们对稀疏注释进行训练。将未标记像素的权重设置为零使得仅从标记的像素学习成为可能,从而推广到整个体积。

3 实施细则

3.1 数据

  我们有三个在Nieuwkoop-Faber期36-37 [10] 的爪蟾肾胚胎样本. 其中一个如图1(左)所示。使用蔡司LSM 510 DUO倒置共焦显微镜(配备Plan Apochromer 40x/1.3油浸物镜),在具有三个通道的四块瓷砖上以0.88×0.88×1.02µm3的体素大小记录3D数据。我们使用XuvTools[1]将瓷砖缝合成大体积。第一通道显示番茄凝集素在488nm激发波长与荧光素偶联。第二通道显示405nm激发下DAPI染色的细胞核。第三个通道显示β-连环蛋白,使用一种以564nm激发标记细胞膜的Cy3标记的二级抗体。我们使用Slicer3D[2][2]手动注释每个卷中的一些正交xy、xz和yz切片。根据良好的数据表示选择注释位置,即注释切片在所有三维中尽可能均匀地采样。不同的结构被标记为0:“小管内部”;1:“小管”;2:“背景”和3:“未标记”。未标记切片中的所有体素也得到标签3(“未标记”)。我们在原始分辨率的下采样版本上进行了所有的实验,每个维度的分辨率是原来的2倍。因此,我们的样本1、样本2和样本3在x×y×z维度上的数据量分别为248×244×64、245×244×56和246×244×59。对于样本1、2和3,正交(yz、xz、xy)切片中手动注释的切片数分别为(7、5、21)、(6、7、12)和(4、5、10)。

3.2 训练

  除了旋转、缩放和灰度增强外,我们在数据和地面真值标签上都应用了平滑的密集变形场。为此,我们从标准差为4的正态分布中随机抽取向量,在每个方向上间隔32个体素,然后应用B样条插值。使用加权交叉熵损失的softmax对网络输出和地面真值标签进行比较,对常见背景降低权重,对内微管增加权重,以达到微管和背景体素对损失的平衡影响。标签为3(“未标记”)的体素不参与损失计算,即权重为0。我们使用Caffe[5]框架中的随机梯度下降求解器进行网络训练。为了训练大的3D网络,我们使用了内存高效的cuDNN[3]卷积层实现。数据扩充是在运行中完成的,这会产生与训练迭代一样多的不同图像。我们在nvidia titanx gpu上运行了70000次训练迭代,大约花了3天时间。

4 实验

4.1 半自动分割

  对于半自动分割,我们假设用户需要对少量的体积图像进行完全分割,并且没有预先分割。所提出的网络允许用户从每个体积中标注几个切片,并让网络创建密集的体积分割。
  为了进行定性评估,我们在所有三个稀疏注释的样本上训练网络。图3显示了第3个示例的分割结果。该网络可以从几个标注的切片中找到完整的三维体分割,节省了专家进行完整体标注的时间。
3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation论文翻译笔记
  为了评估半自动设置中的定量性能,我们将所有3个样本中的77个手动注释切片统一划分为3个子集,并进行3倍交叉验证,包括有无批次标准化。为此,我们移除了测试片,让它们保持未标记状态。这模拟了一个应用程序,其中用户提供了更稀疏的注释。为了测量使用全三维背景的增益,我们将结果与纯二维实现进行比较,后者将所有标记的切片视为独立的图像。我们的实验结果见表1。联合体上的交集(IoU)被用作精度度量,以将丢失的地面真实切片与预测的三维体积进行比较。IoU定义为真阳性/(真阳性+假阴性+假阳性)。结果表明,我们的方法已经能够从很少的带注释的切片推广到非常精确的三维分割,只需很少的注释工作。
  我们还分析了带注释切片的数目对网络性能的影响。为此,我们模拟了一个单样本半自动分割。我们开始在每个正交方向上使用一个带注释的切片,并逐渐增加带注释切片的数量。我们在表2中报告了每一个样本(S1、S2和S3)的网络的高性能增益,每增加几个地面真值(“GT”)切片。结果来自于经过10小时训练的网络,并进行了批量标准化。为了进行测试,我们使用了本实验任何设置中都没有使用的切片。
3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation论文翻译笔记

4.2 全自动分割

  全自动分割设置假定用户想要分割大量在类似设置中记录的图像。我们进一步假设,可以组装一个代表性的训练数据集。
  为了评估这种设置的性能,我们对两个(部分注释的)肾脏体积进行了训练,并使用训练过的网络来分割第三个体积。我们报告了所有3种可能的训练量和测试量组合的结果。表3总结了上一节中遗漏的卷的所有带注释的2D切片的IoU。在这个实验中,BN也改善了结果,除了第三种情况,它是反作用的。我们认为数据集的巨大差异是造成这种影响的原因。全自动分割的典型用例将工作在更大的样本大小上,其中相同数量的稀疏标签可以很容易地分布在更多的数据集上,以获得更具代表性的训练数据集。

5 结论

  我们引入了一种端到端的学习方法,该方法半自动和全自动地从稀疏注释中分割三维体积。它为爪蟾肾脏高度可变的结构提供了精确的分割。在半自动装置的3倍交叉验证实验中,平均IoU为0.863。在一个完全自动化的设置中,我们演示了3D体系结构相对于等效2D实现的性能增益。网络是从零开始训练的,并没有为此应用程序进行任何优化。我们期望它能适用于许多其他生物医学体积分割任务。它的实现是作为开源提供的。
  

二、补充资料

上一篇:Oracle 12c快速安装


下一篇:keras_3_Model 类 API