1. Article: 文献出处
A Deep Learning Approach to Private Data Sharing of Medical Images Using Conditional GANs
(利用条件GANs实现医学图像私有数据共享的深度学习方法)
论文下载地址:https://arxiv.org/pdf/2106.13199v1.pdf
github代码地址:https://github.com/tcoroller/pGAN
2. Data: 文献数据
2.1目的
共享来自临床研究的数据可以促进创新的数据驱动的研究,并最终导致更好的公共卫生。
2.2结论
本文提出了一种合成数据集的生成方法,应用辅助分类器GAN(ac-GAN)生成椎体单元(VUs)的合成磁共振图像(MRIs)。图像以VU位置(颈部、胸部和腰部)为条件。并从图像保真度、样本多样性和数据集隐私性三个关键指标对合成数据集的性质进行了深入分析。
2.3背景介绍
共享生物医学数据会使敏感的个人信息面临风险。这通常通过匿名化来解决,这是一个缓慢而昂贵的过程。匿名的另一种选择是共享一个合成数据集,该数据集具有与真实数据相似的行为,但保留了隐私。作为诺华与牛津大数据研究所合作的一部分,本文基于COSENTYXfi(secukinumab)强直性脊柱炎(As)临床研究生成了一个合成数据集。
3.Problem Statement:问题陈述
本文针对合成数据集可能存在的两个隐私安全漏洞,并对问题进行了分析。
为了评估对这些攻击的鲁棒性,作者使用候选数据集(补充图S1)对它们进行模拟,并评估哪些攻击可以追溯到训练集。
3.1Pairwise attacks:成对攻击
漏洞说明:
找到一个与给定样本相似的合成图像可以证明这个样本是在训练过程中使用的。
分析:
性能基准测试集(A2209)结果对于两两攻击的鲁棒性,我们计算候选样本和来自合成数据集的所有图像之间的相似性。相对较小的L2距离可能表明候选图像被用于生成器培训。候选图像和合成图像之间的最小距离分布如图4-A所示。在这张图上,我们期望最小的距离是训练合成对,最大的距离是测试合成对。因为GANs的一些过拟合行为。在隐私威胁场景中,通过简单的异常检测任务,可以很容易地识别训练图像。参考距离的异常检测见补充图S2。然而,在我们观察到的合成数据集上,不可能可靠地识别来自训练的候选数据和来自验证的候选数据。这也使用应用UMAP获得的嵌入空间来确认。因此,我们的合成数据集在像素和嵌入空间都显示出对成对攻击的鲁棒性。
3.2Distribution attacks:分布攻击
漏洞说明:
高密度的合成图像聚集在一个或几个真实图像周围。
分析:
为了评估对分布攻击的鲁棒性,我们在给定的候选图像周围识别合成图像簇。聚类是通过计算候选邻域中合成图像的数量来定义的,结果如图4-B所示。我们期望在训练集中的候选周围形成大的聚类,而其他候选周围有少量的邻居。
隐私威胁场景(左图)再次印证了这一假设。观察到的合成数据的行为显示在最右边的两幅图上。来自测试集的候选者与来自训练或验证的候选者不同,很少属于大型集群。事实上,最大的聚类绝大多数是围绕训练样本形成的。即使这种方法可以帮助识别少数几个训练示例,但对大多数示例来说都是无效的。实际上,训练集和合成数据集的大小大致相同(大约10000个样本)。这意味着平均而言,一个训练样本只能追溯到一个合成样本。这意味着通过构造,我们的合成数据集可以免受分布攻击。另外值得注意的是,嵌入空间不是均匀填充的。如图4-C所示,合成图像的高密度通常与真实图像的高密度(图上的蓝点)相关,而不是由于GAN生成崩溃和仅生成一种类型的样品。补充材料图S3、图S4和表S1中提供了训练样本的详细检测。
4.Limitations:限制
1、不能确保隐私,很难定义一个方法评估图像相似性。
2、合成数据集有一个固定的隐私容忍度,这是真实数据集和GAN收敛的一个因素,但不能根据具体需要进行调整。