我们发起了药物遗传学中的隐私研究,其中机器学习模型被用来根据患者的基因型和背景指导医疗。对个性化华法林剂量中的隐私进行了深入的案例研究,我们发现建议的模型存在隐私风险,特别是因为攻击者可以执行我们所说的模型反转:攻击者在给定模型和一些关于患者的人口统计信息后,可以预测患者的基因标记。
由于差分隐私(DP)是一个经常提出的解决方案,这样的医疗设置,我们评估了它的有效性,以建立私人版本的药物遗传模型。我们表明,当仔细选择隐私预算时,DP机制可以防止我们的模型反转攻击。我们继续通过使用DP剂量模型进行模拟临床试验来分析对效用的影响。我们fi发现,对于有效预防攻击的隐私预算,患者将面临更高的中风、出血事件和死亡风险。我们的结论是,目前的DP机制不能同时改善基因组隐私,同时保持理想的临床效果fi敏感性,这突出了新机制的必要性,这些新机制应该使用我们的工作介绍的一般方法进行现场评估。
1 引言
近年来,技术的进步已经使廉价、高fi精密度的分子分析成为可能,这种分子分析可以表征个体的基因构成。这导致了人们对个性化医学的广泛兴趣,个性化医学利用基因型和其他信息为每个患者量身定做治疗方案,以改善结果。许多个性化医学是基于药物遗传学(有时称为药物基因组学)模型[3,14,21,40],这些模型是由
对包含临床和基因组数据的大型患者数据库进行机器学习。先前在非医疗环境中的工作[36,37]已经表明,泄露的数据集可以实现用户的去匿名化和其他隐私风险。在药物遗传学环境中,数据集本身通常只向研究人员披露,但从它们那里学到的模型是公开的(例如,在论文中发表)。因此,我们的重点是确定模型本身在多大程度上泄露私人信息,即使在没有原始数据集的情况下也是如此。
为了做到这一点,我们进行了华法林剂量的案例研究,华法林剂量是药物遗传学建模的一个流行目标。华法林是一种广泛使用的抗凝剂,用于帮助患有心房fi颤动(一种不规则心跳)的患者预防中风。然而,已知受多个遗传标记影响呈现复杂的剂量-反应关系[43],不适当的剂量会增加中风或失控出血的风险[41]。因此,一长串的工作[3,14,16,21,40]一直在寻找能够根据患者的临床病史、人口统计学和基因型准确预测适当剂量的药物致病模型。文献[23]对此文献进行了综述。
我们的研究使用了国际华法林药物遗传学联合会(IWPC)收集的数据集,到目前为止,该数据库是包含来自世界各地的数千名患者的人口统计信息、遗传标记和临床病史的最广泛的数据库。虽然这个特定的数据集是以明确的fi形式公开提供的,但它等同于在其他研究中使用的数据必须保密(例如,由于没有同意发布)。因此,我们将其用作私有数据集的代理。IWPC成员撰写的论文[21]详细说明了从该数据集中学习线性回归模型的方法,并表明使用所得到的模型来预测初始剂量在与稳定剂量的绝对距离方面优于标准临床方案。已经进行了随机试验来评估临床疗效,但尚未验证遗传信息的实用性[27]。
模型反演。我们研究了这些模型泄露有关患者基因型的敏感信息的程度,这将对基因组隐私构成威胁。为此,我们调查了模型反转攻击,在该攻击中,给定被训练成预测特定fic变量的模型,攻击者使用该模型来预测用作该模型的输入的非预期(敏感)属性(即,对属性隐私的攻击)。这样的攻击试图利用目标、未知属性(在我们的例子中,是人口统计信息)和模型输出(华法林剂量)之间的相关性。先验地,不清楚模型是否包含关于这些相关性的足够可利用的信息来发动反转攻击,并且很容易找出攻击者不会成功的模型的例子。
然而,我们表明华法林模型确实会带来隐私风险(第3节)。为了做到这一点,我们提供了一个通用的模型反演算法,该算法在给定可用信息的情况下最小化了攻击者的预期误预测率,从这个意义上说,该算法是最优的。我们fi发现,当一个人知道目标患者的背景和稳定的剂量时,预测他们的遗传标记比基于边缘分布的猜测有明显更高的准确性(高达22%)。(fifi)事实上,它几乎和fi专门训练的预测这些标记的回归模型一样好(˜只差5%),这表明在“理想”的环境下,模型倒置几乎可以和学习一样有效。最后,对于训练队列中的成员,倒置模型的表现明显好于其他成员(精度提高了4%),表明有关这些患者的特定fi信息泄露。
差异隐私的作用。差异隐私(DP)是设计统计发布机制的流行框架,并且经常被提出作为医疗环境中隐私问题的解决方案[10,12,45,47]。DP由值ε(有时称为
在我们的设置中遵循这一Definition之后,DP保证防止试图推断对象是否包括在用于推导机器学习模型的训练集中。它没有明确的目标是保护属性隐私,这是我们的模型反转攻击的目标。然而,其他人已经激励或设计了DP机制,以确保患者疾病的隐私[15]、用户社交网络PROfiLES上的功能[33]以及网络痕迹中的网站访问[38],所有这些都与属性隐私有关。此外,最近的理论工作[24]已经表明,在某些设置中,包括线性回归的某些应用,在查询结果中加入噪声可以保护属性隐私。这让我们不禁要问:在我们的环境中,DP机制的应用能否使基因组隐私受益于fi?
为了回答这个问题,我们在一个医疗应用中对DP进行了fi第一次端到端评估(第5节)。我们在IWPC数据集上使用了两个最新的算法:Zhang等人的作用机制。[47]用于产生私有线性回归模型,以及温特博的保护隐私的投影直方图[44],用于产生可在其上训练回归模型的差分私有合成数据集。这些算法代表了各自模型中DP机制的当前最先进水平,作者报告的性能超过了以前为类似任务设计的DP机制。
3 Privacy of Pharmacogenetic Models
在我们评估的一端,我们应用一个模型反相器来量化通过ε-DP版本的IWPC模型泄露的关于患者遗传标记的信息量。另一方面,我们量化ε对患者结局的影响,通过医学文献中广泛使用的技术进行模拟临床试验[4,14,18,19]。我们的主要结果(图1中显示了其中的一个子集)显示了患者结果和隐私之间的明显权衡:
“Small ε”-DP保护基因组隐私:尽管DP不是专门为保护属性隐私而设计的,但我们发现对于SUFfiSmallfi1),遗传标记无法准确预测(参见图1中标记为“披露,私有LR”的行),并且模型逆变器在训练集和验证集上的性能之间没有明显差异。然而,随着ε的增加,这种影响很快消失,其中基因型预测的准确率高达58%(0.76AUCROC)。这比没有模型时达到的36%的准确率有明显的提高(22%),也不远低于非私人回归模型的“最佳可能”性能(5%),该模型被训练用fi数据来预测相同的基因型。
目前的DP机制损害临床疗:我们的模拟临床试验显示,与当前的临床实践相比,ε≤5的死亡或其他负面结果的风险显著增加(高达1.2 6倍),目前的临床实践使用非个性化的fiX剂量,因此根本不会泄露任何信息。请注意,提供临床效用的ε(>5)的范围不仅不能保护基因组隐私,而且通常被认为还能提供不可靠的fi有效DP保证。(参见图1中标记为“Mortality,Private LR”的行。)
简而言之:我们的分析表明,在这种效用至上的环境中,我们的应用程序最著名的机制并没有给出可以合理使用最先进的DP机制的ε。
我们结果的含义。我们的结果表明,关于药物遗传隐私仍有很多需要了解的地方。差异隐私适用于隐私和效用要求基本上没有冲突的设置,并且可以与适当的隐私预算相平衡。虽然我们研究的机制不能很好地平衡这一点,但未来的机制可能能够做到这一点-本文给出的原位方法论可能有助于指导这种努力。在隐私和效用根本不一致的设置中,任何类型的释放机制都将失败,而限制性的访问控制策略可能是最好的答案。这里概述的模型反演技术可以帮助识别这些情况,并量化风险。
3.1 Attack Model
3.2 Model Inversion
在这一部分中,我们讨论了一种从预测华法林剂量的模型中推断CYP2C9和VKORC1基因型的技术。给定采用输入x并输出预测的稳定剂量y的模型f,攻击者试图构建算法A,该算法A将属性的某个子集xα(对应于来自X的人口统计或K个附加背景属性)、已知的稳定剂量yα作为输入,并输出xt的预测(对应于CYP2C9或VKORC1)。我们首先介绍一个通用算法,并展示如何将其应用于线性回归模型。
一种通用算法。我们提出了一种独立于底层模型结构的模型反演算法(图2)。该算法通过在给定可用信息和模型的情况下估计潜在目标属性的概率来工作。它的操作很简单:向前遍历与已知的α相似的候选数据库行模型。根据已知的先验,以及模型在该行上的输出与α的已知响应值的一致性程度,对候选行进行加权。返回具有最大权重的目标属性,该目标属性通过边际化其他属性来计算。
下面,我们将更详细地描述该算法。我们通过展示如何计算目标属性似然的最小有偏估计来推导每一步,模型反演算法将其最大化以形成预测。正如我们下面所述,这种方法是最优的,因为当对手除了第3.1节中给出的信息之外没有其他信息(即,没有进一步的假设)时,它将预期的误分类fi阳化率降至最低。