Synthetic Medical Images from Dual Generative Adversarial Networks
Abstract
目前数据驱动型的方法进行医学图像的分类十分受追捧,但鉴于医学图像的稀缺性,有些图像的获取还涉及到病患隐私等问题使得医学图像更加难以获取。一般只允许将病患的数据用于医学期刊或教学中,也意味着无法为公共研究获取。本文则提出了一种新的两阶段流水线的模型用于合成医学图像,通过将复杂的图像生成任务按层次划分为两部分:几何结构和图像写实性,并成功在视网膜眼底图像上进行了测试。 我们希望学者们能够运用本文的方法将私密的医学数据带入到公共视野中,进一步发展以前依赖于手工调整的模型。我们已经通过开发在线医学图像生成仓库——SynthMed开始了这项工作。
1 Introduction
计算机辅助医学图像分析广泛用于辅助专家医生进行医学图像的分析解读1。今日深度学习算法在特定医学图像的理解上展现了强大的高精度性能,尤其在分类和分割任务中2。此外深度学习算法由于其自动化和计算性能还大大提高了数据分析的效率。因为随着医学图像大量产生,有些还是以3维数据的形式(如MRI,CT图像等),如果还是用手工标注就显得十分笨重且效率低下。
因此基于深度学习技术进行计算机辅助的医学图像分析引起了业界的广泛关注3,但是由于数据的隐私及可获取性使得公众无法直接参与推动这一系统的发展4。医生也无法在未经病患同意的前提下将大量原始数据向社会开源4。除此之外目前开源的一些数据及也往往规模较小或缺乏专家标注,对于一些数据饥饿型网络的训练也无济于事。只有能获取到大量专业的医学数据的专业人士才能从事这一系统的开发,使得这一领域的进展缓慢。
过去十年间,深度学习领域取得了诸多突破。一年一度的ImageNet竞赛从2010年到2014年的4年间,错误率从28.2%降至6.7%5。ImageNet需要多达50000人评估,分类及标记数十亿的候选数据集5。每年的ImageNet挑战赛逐渐提升精度,也显示出大型、精确的数据集对模型的训练时多么重要。然而,现在在医学图像领域方面的研究还是大量依赖于手工调整模型而不是解决根本的数据问题。如果在医学领域也有这样一个大型精确地数据集我想也会引发这一领域指数式的发展。 本文提出了一种新的流水线式模型用于医学图像的合成,这一模型允许使用公共数据集,没有隐私等问题的考虑,本文使用的数据集来源于SynthMed。
2 Related Works
不同学科的研究人员已经有借助数据合成的方法将一些隐私数据带到公共领域,比如美国人口普查就会收集个人的职业、教育、收入和位置等信息,即使来源已经被各种混淆打乱但仍有被匿名泄露的风险6。Duke大学的一名研究人员则通过合成统计数据的方式解决了这一数据私密性的问题7。在2011年,他们发布了第一个开源的商业机构数据库Synthetic Longitudinal Business Database8。
正如在雷特的研究中所看到的,以前使用合成数据将私有数据带到公共领域已经完全用标量完成了。随着数据驱动计算机在视觉技术方面的日益强大,本文探讨了图像合成数据的思想。进来神经网络的发展,尤其是生成式对抗网络(GAN)9,保证了生成更加真实图像的能力。但是GAN生成的数据常常带有伪影或噪声,主要是由于在能量场鞍点附近的不稳定性导致的,本文通过使用一对GAN来解决这一稳定性问题。
3 Data
在GAN的第一阶段(stage-I)使用的是DRIVE数据集中的视网膜眼底图像10,DRIVE数据集包含40张视网膜血管图像以及对应的分割结果,分割结果由两位专家提供;
GAN的第二阶段(stage-II)的训练图像包括MESSIDOR数据集中的图像以及经过一个分割网络得到的分割掩膜(mask)11。
为了对比效果,本文还训练了基于单个GAN在DRIVE数据集上的效果。一个U-Net网络在DRIVE数据集上进行训练,其他的UNet则是在GAN生成的50对图像上进行训练。
图1:来自DRIVE的血管树分割掩膜和视网膜眼底图像
4 General Pipeline
为了生成高质量的数据集,本文使用两个GAN,将图像生成问题分成两步:
(1)Stage-I GAN:生成分割掩膜表征数据集可变的几何形状;
(2)Stage-II GAN:将第一阶段的掩膜图像转换为实际图像。
具体的流程参见Fig 2 ,可以看到在第一阶段输入的是真实数据集中的分割图像,经过GAN训练后合成新的分割图像;第二阶段输入的则是{真实眼底图像,分割图}这一组图像对以及上一阶段生成的分割图,经过GAN II后输出合成的视网膜眼底彩图。
5 Generative Adversarial Network
GAN是由Goodfellow等9在2014年6月提出的,包括i两个对抗的模型:判别器D和生成器G。D是二进制的分类器,将G生成的数据分类为训练集的一部分(真实的)或不真实的(伪造的)。G通过生成D将分类为真实数据的模型来最小化其损失函数,如下:
m
i
n
m
a
x
(
D
,
G
)
=
E
x
−
p
d
a
t
a
[
l
o
g
D
(
x
)
]
+
E
x
−
p
z
[
l
o
g
(
1
−
D
(
G
(
z
)
)
)
]
minmax(D,G)=E_{x-p_{data}}[logD(x)]+E_{x-p_z}[log(1-D(G(z)))]
minmax(D,G)=Ex−pdata[logD(x)]+Ex−pz[log(1−D(G(z)))]
判别器是一个标准的卷积神经网络(CNN)接受图像输入并返回一个标量表征这个图像是真实图像的程度。 有两个卷积层识别5x5像素特征,与大多数CNN一样,在末端全连接层。生成器由随机噪声向量初始化,而判别器由小数据集的ground truth开始训练。生成器是一个更深的神经网络,有更多的卷积层和非线性层。噪声向量被上采样,G的权值由反向传播更新,最终生成的数据能被判别器判别为真的。更重要的是,GAN的一个重要特征是能生成比原数据集更多的数据。
本文则用流水的方式组织GAN网络,在维护病人隐私的基础上生成更广泛的真实图像。
6 Stage-I GAN
Stage-I GAN的任务是生成不同的分割掩膜。基础网络结构是DCGAN12,由TensowFlow平台实现。因为与标准的GAN相比,DCGAN可以同时对生成结果和训练稳定性有较为综合的提升。DCGAN的特别之处在于使用卷积层取代了池化层,池化层虽然有助于提升训练效率但不可避免损失了空间信息等一些重要特征,且池化层导致了医学图像中重要特征的丢失。生成器由噪声向量初始化,随后送入到多层 步进式卷积网络中生成图像。
我们使用交叉熵损失函数来训练Stage-I GAN的判别器:
l
D
=
1
m
∑
i
=
1
m
[
l
o
g
(
D
(
G
(
z
i
)
)
)
+
l
o
g
(
1
−
D
(
x
i
)
)
]
l_D=\frac{1}{m}\sum_{i=1}^{m}[log(D(G(z^i)))+log(1-D(x^i))]
lD=m1i=1∑m[log(D(G(zi)))+log(1−D(xi))]
D为判别器,G为生成器,m为mini-batch的大小,z为对应输入的噪声向量,x为图像,i为图像的下标,生成器的loss为:
l
G
=
1
m
∑
i
=
1
m
l
o
g
(
1
−
D
(
x
i
)
)
l_G=\frac{1}{m}\sum_{i=1}^{m}log(1-D(x^i))
lG=m1i=1∑mlog(1−D(xi))
由于这两个连接的损失函数,生成器和判别器不断地对抗以最小化各自的损失函数。我们在NVIDIA Tesla K80 GPU上面训练这个模型。
7 Stage-II GAN
第二阶段的GAN需要根据输入的图像对,将前一阶段的血管分割图转换成写实的视网膜眼底图像。Stage-II GAN也基于TensorFlow平台构建的。基础网络是cGAN,由Isola13等人在2016年11月提出;特别的,一个血管–眼底图像的网络由Costa等人实现14。
该网络是GAN的一个特殊形式叫做条件生成式对抗网络(CGAN)。它的目的是将两个网络D和G限定为向量y和输入图像X表示分割掩码与真实图像之间的映射。与常规的GAN相似,cGAN的函数如下(含有一个额外的输入参数y):
m
i
n
G
m
a
x
D
V
(
D
,
G
)
=
E
p
d
a
t
a
[
l
o
g
D
(
x
,
y
)
]
+
E
z
−
p
z
[
l
o
g
(
1
−
D
(
G
(
z
,
y
)
)
)
,
y
]
min_Gmax_DV(D,G)=E_{p_{data}}[logD(x,y)]+E_{z-p_z}[log(1-D(G(z,y))),y]
minGmaxDV(D,G)=Epdata[logD(x,y)]+Ez−pz[log(1−D(G(z,y))),y]
第二阶段的GAN需要学习的就是真实的眼底图像与分割图之间的映射关系,然后根据给定的分割图生成相同几何结构的真实眼底图像。
8 UNet
为了测试本文这种合成方法的有效性,本文还训练了一个UNet用于根据输入的视网膜眼底图产生分割的血管图。UNet采用的结构就是Ronneberger提出的原始的编码-解码网络结构15。U-net
UNet的优势就是第一没有限定输入图像的规格,二是允许足够多的通道表征特征,跃层连接还有效传递了原始的低层信息。
而分割任务在医学图像分析中大有可为,比如用于恶性肿瘤的识别。对于视网膜图像。
分割是机器学习中的一项重要任务,用于将图像分割成相关部分。它在医学上也特别有用,可以勾勒出恶性身体和肿瘤等异常情况。在检查视网膜图像时,医生通常在血管中寻找微动脉瘤用于糖尿病视网膜病变的诊断。医生通常需要根据血管的微小病变对一些糖尿病视网膜病变等病症做出诊断。 本文展示了基于合成图像进行UNet分割的结果,有效的简化了自动识别过程还提升了精度。这也只是本文这种流水线图像生成方法的一种应用。
9 Evaluation Metrics
本文会把合成的图像送入UNet分割,因此通过计算F1分数类似评估分割的好坏,还会计算合成图与真实图之间的KL散度来衡量GAN的性能。
当考虑GAN时,我们必须分析对抗散度来计算统计量生成数据和原始数据之间的相关性。KL散度已经作为衡量生成模型的标准:
K
L
(
P
,
Q
)
=
∑
i
P
i
(
l
n
P
i
Q
i
)
KL(P,Q)=\sum_{i}P_i(ln\frac{P_i}{Q_i})
KL(P,Q)=i∑Pi(lnQiPi)
我们也使用了普遍的F1分数,采用准确值和召回值的调和平均值来进行计算。这个分数能显示两个图像的相似程度,我们使用它来比较由生成图像训练的u-net和DRIVE数据集训练的u-net的分割结果。
10 Quantitative Results
合成图与原始图的F1得分分别为0.8877和0.8988,可以看到二者的差距很小。
为了测试方差,我们获取了表征两个数据集分布差异的KL散度分数,KL散度则分别是4.759和4.121x10-4,DRIVE数据集中两个子集来源于同一分布所以分数才这么低,而两者的差距则表明了合成的数据也不仅仅是完全复制了原始数据的分布。
11 Qualitative Results
Fig4展示了两张合成的分割图谱以及在DRIVE数据集中与之最相近的分割图
Fig5展示的则是DRIVE数据集中的眼底图像以及对应的mask;和本文生成的眼底图像与mask的对比。
12 Pipeline Validation
为了测试本文这种流水线式的灵活性,本文还在另一个数据集-BU-BIL上进行了测试16。
BU-BIL数据集包含35张大鼠平滑肌细胞图像以及对应的分割mask作为训练数据,我们可以产生该数据的生成版本。
本文选择这一数据集的原因是因为它变化较大。前景物体的位置和形状都有较大的变化,这就使得GAN难以学习特征之间的相关性。但通过本文的Dual-GAN模型还是成功的合成了逼真的平滑肌细胞图像以及对应的mask。
正如我们的流水线所描述的,我们首先使用Stage-I的GAN生成平滑肌细胞的分割mask。然后使用Stage-II的GAN将分割图变成真实的平滑肌细胞图片。
Fig6展示了BU-BIL图像的合成情况。
而且有一点值得强调,那就是这仅仅是基于35张图像,这就说明在第二阶段的GAN足以根据分割的mask学习到真实图像的映射,但如果数据更加多样的话也许对图像中的背景部分学习的更好。
13 Discussioin
鉴于医学图像常常变化较多,容易受噪声、光照、模式等的影响,单一的GAN不足以产生令人信服的图像。比如Fig7就展示了用一个GAN生成的结果。可以看到无法学习较为复杂的结构,因此看到生成图像中对于血管树和dark spot部分都有较大缺陷,只能学习到一些简单的特征,如颜色、光照、形状等。
而在细节上的缺失是无法应用于医学图像生成的,因为医学图像有很多为了数据的可用性,必须精确地表示这些复杂性。本文的Dual-GAN通过将这一具有挑战性的生成任务切分为两个子任务,有效提升了生成图像的质量。在Stacking GAN中,也体现了相似的思路,通过对每一个GAN提供相关的补充任务来解决GAN的不稳定问题。而本文中Stage-I GAN只关注于:如何产生分割后的几何结构,而不考虑图像写实的问题;而Stage-II GAN则关注于如何根据输入的结构图生成更高维度的视网膜眼底图,包括颜色、光照、纹理等特征的学习。这样每个GAN都能达到较高质量,收敛的也更快,比常规的GAN系统生成的图像更加逼真、写实。
除此之外,本文会比原始数据集生成更为丰富的图像。这是因为我们的流水线生成的图像位于形成分布的数据之间
。正如图5和图6所示,我们的合成数据集在生成真实数据时保持了在原始数据集上总的统计分布。我们的流水线能产生更多数量的图像用于数据驱动的机器学习任务,同时还能避免病人隐私的法律问题。
14 Conclusion
我们提出了一种流水线能够使用一对生成对抗网络为端到端的分割任务生成医学图像。 我们的方法将图像生成过程分为两部分:Stage-I GAN,专注于创建不同的分割几何mask,Stage-II GAN 将几何图形转换为逼真的图像。 给定一个数据集的真实图像,它可以产生大量的合成数据,而不是任何真实的病例的图像,这意味着我们的流水线产生的数据可以在公共领域分发。 这是一个迈向创建公共和合成医学图像数据集的重要一步,类似于ImageNet。 为了进一步实现这一目的,我们创建了一个在线合成医学影像数据库被称为 SynthMed。 我们计划用私人研究的合成数据填充这个数据库.
我们希望,未来的研究人员将应用类似的合成数据技术,为公众提供对他们的私人数据的访问方法,用于进一步推进和发展计算机辅助医疗诊断。
15 Future Work
我们相信本文的Dual-GAN可以应用到其他医学图像中,因为场景合成一直是计算机视觉一个很火热的领域,往往图像都是极其复杂却变化多端的,这种两步走的方法可以有效简化问题。我们的两阶段流水线可以用于简化这些问题,简单的场景可以由Stage-I的GAN生成,细节可以由Stage-II的GAN学习到。研究人员已经证实了单个GAN可以将人工分割的照片转换为真实的场景,由Isola等人在场景生成中提出13。
未来我们希望Stage-I 可以探索其他模式的图像表征,比如贝塞尔曲线、2D点云或者图像的素描,这样可以在图像生成中尽量压缩维度,从而有效减少计算时间以及产生伪影的可能。
处理不同的数据,本文的模型需要调整一些超参数,也可以设计一些更深层更有效的模块来替代模型中的一些网络。
此外本文的模型依赖于精确的高差异的数据,虽然可以用于各种医学图像但需要在获得私密数据的基础上在进行,关键是获得这些数据从而进一步生成数据,向公众开放,这需要更多人的共同协作。
参考文献
-
Doi, K. (2007). Computer-Aided Diagnosis in Medical Imaging: Historical Review, Current Status and Future Potential. Computerized Medical Imaging and Graphics : The Official Journal of the Computerized Medical Imaging Society, 31(4-5), 198–211. http://doi.org/10.1016/j.compmedimag.2007.02.002 ↩︎
-
Baris Kayalibay, Grady Jensen, and Patrick van der Smagt. Cnn-based segmentation of medical imaging data. CoRR, abs/1701.03056, 2017. ↩︎
-
Ishida, T, and S Katsuragawa. “[Overview of computer-Aided diagnosis].” Nihon Igaku Hoshasen Gakkai zasshi. Nippon acta radiologica., U.S. National Library of Medicine, July 2002, www.ncbi.nlm.nih.gov/pubmed/12187835 ↩︎
-
Christopher Cunniff, Janice L.B. Bryne Louanne M. Hudgins, John B. Moeschler, Ann Haskins Olney, Richard M. Pauli, Lauri H. Seaver, Cathy A. Stevens, Christopher Figone. Informed consent for medical photographs, Dysmorphology Subcommittee of the Clinical Practice Committee, American College of Medical Genetics, https://www.acmg.net/staticcontent/staticpages/informed_consent.pdf ↩︎ ↩︎
-
Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael S. Bernstein, Alexander C. Berg, and Fei-Fei Li. Imagenet large scale visual recognition challenge. CoRR, abs/1409.0575, 2014. ↩︎ ↩︎
-
Aditi Ramachandran, Lisa Singh, Edward Porter, Frank Nagle. Exploring Re-identification Risks in Public Domains, Georgetown University, Harvard University, https://www.census.gov/srd/CDAR/rrs2012- 13_Exploring_Re-ident_Risks.pdf ↩︎
-
Jarmin, R. and Louis, T. (2014). [ebook] Washington: U.S. Census Bureau, Center for Economic Studies, https://www2.census.gov/ces/wp/2014/CES-WP-14-10.pdf ↩︎
-
Satkartar K. Kinney, Jerome P. Reiter, Arnold P. Reznek, Javier Miranda, Ron S. Jarmin, and John M. Abowd. Towards Unrestricted Public Use Business Microdata: The Synthetic Longitudinal Business Database. International Statistical Review, 79(3):362–384, December 2011. ↩︎
-
I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio. Generative Adversarial Networks. ArXiv e-prints, June 2014. ↩︎ ↩︎
-
J.J. Staal, M.D. Abramoff, M. Niemeijer, M.A. Viergever, and B. van Ginneken. Ridge based vessel segmentation in color images of the retina. IEEE Transactions on Medical Imaging, 23(4):501–509, 2004. ↩︎
-
Decencière et al… Feedback on a publicly distributed database: the Messidor database. Image Analysis & Stereology, v. 33, n. 3, p. 231-234, aug. 2014. ISSN 1854-5165. ↩︎
-
Alec Radford, Luke Metz, and Soumith Chintala. Unsupervised representation learning with deep convolutional generative adversarial networks. CoRR, abs/1511.06434, 2015. ↩︎
-
P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros. Image-to-Image Translation with Conditional Adversarial Networks. ArXiv e-prints, November 2016 ↩︎ ↩︎
-
P. Costa, A. Galdran, M. Ines Meyer, M. D. Abramoff, M. Niemeijer, A. M. Mendonca, and A. Campilho. Towards Adversarial Retinal Image Synthesis. ArXiv e-prints, January 2017 ↩︎
-
Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation. CoRR, abs/1505.04597, 2015. ↩︎
-
D. Gurari, D. Theriault, M. Sameki, B. Isenberg, T. A. Pham, A. Purwada, P. Solski, M. Walker, C. Zhang, J. Y. Wong, and M. Betke. “How to Collect Segmentations for Biomedical Images? A Benchmark Evaluating the Performance of Experts, Crowdsourced Non-Experts, and Algorithms.” Winter conference on Applications in Computer Vision (WACV), 8 pp, 2015. [In Press]. ↩︎