Abstract
The differences of medical images and natural images:
Specifically, fine details are necessary for detection in medical images, unlike in natural images where coarse structures matter most.
一开始处理医学影像只是单纯的更换了神经网络的输入图片,没有考虑两种图片的差异,医学影像更关注图片的细节,自然图片的分类更关注粗糙的宏观结构。
这种差异使得现有的针对自然图像开发的网络架构无法充分使用,为了减少内存需求,它们是在严重降级的图像上工作,导致隐藏了进行准确预测所需的细节。
此外,医学成像中的单次检查通常会有一组视图,必须将这些视图融合起来才能得出正确的结论。因此论文提取了一个多视图cnn处理高分辨率的医学影像,经过测验,原始分辨率才能达到最佳性能
I. INTRODUCTION
For instance, many recent works have either significantly downscaled a whole image or focused on classifying a small region of interest.(降低尺寸或提取roi进行分类)
自然图像的物体识别任务通常一次只涉及一个物体,相比之下,医学成像中的检查通常会有一组视图。
II. HIGH-RESOLUTION MULTI-VIEW DEEP CONVOLUTIONAL NEURAL NETWORKS
MV-DCN:
卷积层:前两个卷积层的步幅大于1。
池化层:第一个池化层的步幅也比其他池化层大。因此,大大降低了网络早期特征图的大小。虽然这种卷积和池化会损失一些空间信息,但在训练过程中,网络的参数会被调整以最小化这种信息损失。这与输入的降维不同,降维会无条件地损失信息。
全连接:在最后一层对特征图进行平均后再进行连通,而不是简单地将特征图平铺后再进行连结。这极大地降低了视图特定向量的维度,而不会有太大的性能下降,甚至没有下降。
结果:将四张2600×2000像素的图像(每个视图一张)作为输入,而不需要任何降维。
III. RELATED WORK
Traditionally:
第一阶段:图像被分割成不同类型的区域
第二阶段:分割后的乳房区域内,提取一组感兴趣的区域(ROI),这些区域将被更详细地检查。(regions of interest)
第三阶段,这些ROI中的每一个都会被确定为恶性病变与否。第三阶段的结果用于对由多个视图组成的给定病例做出最终决定。
On the other hand: 少数研究小组考虑用一个或一系列可训练的机器学习算法来代替整个多阶段方法。
IV. DATA
数据准备:
很多文献中的数据集,像INBreast,实现了良性和恶性病例之间的平衡。这种类型的人工平衡,等价对恶性病例进行上采样,可能会使模型偏向于更多地将给定病例预测为恶性病例,并且需要比必要的更多的回溯。
这篇paper使用了完整的数据,不对结果进行人工平衡,以确保任何训练好的深度卷积网络都能密切反映结果的自然分布。
数据使用:
裁剪区域进行了水平垂直翻转,训练过程中,每次使用图片都独立地对噪声进行采样,验证过程中,裁剪区域没有添加任何噪声,测试时对网络输入了师祖四个随机裁剪的试图,最终预测结果是通过所有的裁剪的预测进行平均。
Model结构:
DCN
每个dcn把输入变成256维的向量
V. SETTINGS
Model调整:
(1)固定了相应列的权重,即处理L-CC和R-CC视图的列的参数与处理L-MLO和R-MLO视图的列的参数是共享的。
(2)在输入中加入高斯噪声(平均值为零,标准差为0.01)。
(3)在完全连接层之后应用dropout(速率为0.2)。在验证和测试期间,关闭了输入噪声和 dropout。
VI. QUANTITATIVE RESULTS ANALYSIS(量化结果分析)
A. Effect of Scale:
分类性能随着训练数据数量的增加而提高。
B.Effect of Resolution
输入的两个维度,按照完整数据集,1/2,1/4,1/8进行缩放,使用双立方插值来降低输入的尺度 ,随着每个维度的降维性能会逐渐下降
C.Confifidence
VII. VISUALIZATION
VIII. READER STUDY
IX. CONCLUSIONS
实现了,multi-view 和large scale training
证明了保持图像的高分辨率的重要性。
总结
模型特点:
卷积层:前两个卷积层的步幅大于1。
池化层:第一个池化层的步幅也比其他池化层大。因此,大大降低了网络早期特征图的大小。虽然这种卷积和池化会损失一些空间信息,但在训练过程中,网络的参数会被调整以最小化这种信息损失。这与输入的降维不同,降维会无条件地损失信息。
全连接:在最后一层对特征图进行平均后再进行连通,而不是简单地将特征图平铺后再进行连结。这极大地降低了视图特定向量的维度,而不会有太大的性能下降,甚至没有下降。
结果:将四张2600×2000像素的图像(每个视图一张)作为输入,而不需要任何降维。
模型结构
模型调整:
(1)固定了相应列的权重,即处理L-CC和R-CC视图的列的参数与处理L-MLO和R-MLO视图的列的参数是共享的。
(2)在输入中加入高斯噪声(平均值为零,标准差为0.01)。
(3)在完全连接层之后应用dropout(速率为0.2)。在验证和测试期间,关闭了输入噪声和 dropout。