论文翻译:Preserving User Privacy For Machine Learning: Local Differential Privacy or Federated Machine Learning?

保护机器学习的用户隐私:本地差分隐私还是联邦机器学习?

(引用格式:Zheng H, Hu H, Han Z. Preserving User Privacy for Machine Learning: Local Differential Privacy or Federated Machine Learning?[J]. IEEE Intelligent Systems, 2020, 35(4): 5-14.)

(思考:这篇论文立意比较吸引人,讨论的东西也比较有意思,推荐了解一下,比较适合写在论文引言里面讨论,实验做的很详细)

摘要:越来越多的移动和物联网设备已经养育了许多智能应用程序。为了产生高质量的机器学习模型,他们不断访问和收集丰富的个人数据,例如照片,浏览历史记录和文本消息。但是,直接访问个人数据已引起公众越来越关注隐私风险和安全漏洞。为了解决这些问题,有两种新兴的隐私保护机器学习解决方案,即本地差分隐私和联合机器学习。前者是分布式数据收集策略,其中每个客户端在提交给服务器之前先在本地扰动数据,而后者是分布式机器学习策略,以通过移动设备在本地训练模型并通过以下方法合并其输出(例如,模型的参数更新)控制协议。在本文中,我们对两种解决方案的效率和隐私进行了比较研究。我们的结果表明,在标准的填充和域设置下,两者都可以实现低于20%的最佳错误分类率,而联合机器学习通常以更高的客户端CPU使用率为代价,表现更好。但是,本地差异化隐私可以从更大的客户群体(> 1k)中受益。至于隐私保证,本地差异隐私还可以灵活控制数据泄漏。

1、引言

  。。。废话

  1)本地差异隐私(LDP):每个用户在将其数据发送到不受信任的服务提供商进行数据收集和分析之前,都会在本地扰动她的数据。 LDP通过可衡量且严格的机制实现了每个人的合理可否认性。 LDP在保护隐私的统计信息收集文献中进行了大量研究。

  2)联合机器学习(FML):它使用与*服务器的有效控制协议,在大量分布式客户端上训练全局共享模型。仅将根据本地数据计算出的模型参数更新提交给服务器,服务器对这些参数进行汇总以改善共享的全局模型。这种方法不仅可以保护用户的本地数据,而且可以利用移动设备上的计算资源。

  尽管这两种工具都避免直接访问,但是它们的方法本质上是不同的。 LDP是可以通过不同算法实现的理论上的隐私表示法,而FL是没有理论上可证明的隐私的通用分布式学习框架。为了对这两种工具进行比较研究,我们将它们部署为解决移动场景中的一组常见分类问题。这使我们在分类性能,隐私丢失,CPU /功耗和带宽消耗方面获得有关其性能的重要见解。特别是,为了统一这两种解决方案的隐私模型,我们通过常规的样本推理攻击设计了隐私损失度量。总而言之,我们的主要贡献如下:

  ###我们实现了两个相互竞争的解决方案,它们无需向服务器提交原始用户数据就可以从用户数据中学习,并广泛讨论了这两种解决方案的统一性。

  ###我们通过一般的样本推断攻击为这两种解决方案设计了统一的隐私丢失度量。

  ###我们进行了广泛的实验,以比较移动场景中一系列机器学习问题中的两种解决方案。

  其余工作安排如下。在第2节中,我们介绍了LDP和联合机器学习的基本原理,并指出了它们的问题。第三部分介绍了我们对这两种技术进行比较研究的方法。第4节中显示的实验结果比较了给定学习任务在各种模型和数据集参数方面的表现。我们在第5节中讨论了统一策略,在第6节中讨论了相关工作。 

2、前提

2.1本地差分隐私

2.2联邦机器学习

3、方法

3.1问题陈述

  我们旨在解决分布式数据设置中的机器学习问题,其中Google和Apple这样的公司希望通过数百万个分布式数据(例如键盘输入)来提高其AI服务准确性,例如单词自动完成建议数据点。为了最大程度地减少隐私泄露的风险,这些公司采用以下两种策略之一:本地差异隐私,以允许用户在提交给用户之前先扰动数据,或者通过联合学习在本地训练机器学习模型,并仅向他们更新模型参数。表。 1总结了这两种策略的主要特征。分类任务的典型数据记录的格式为fX1; X2;。 :::; Xlg,其中Xi(i <l)是要素维,最后一个Xl是此记录的分类标签。

                                               论文翻译:Preserving User Privacy For Machine Learning: Local Differential Privacy or Federated Machine Learning?

3.2策略LDP:使用-LDP提交干扰数据

3.2.1客户端:

  为了在满足-LDP的同时扰动每个用户的数据,引入了一种经过清理的机制,该机制涵盖了带有一定数量噪声的敏感信息。对于分类属性,每个属性在所有样本中都具有论文翻译:Preserving User Privacy For Machine Learning: Local Differential Privacy or Federated Machine Learning?个候选值。对于任何维数Xi,通过使用[6]提出的阶梯机制,即k-RR,扰动输出可以为X0 i:

                                                          论文翻译:Preserving User Privacy For Machine Learning: Local Differential Privacy or Federated Machine Learning?

 

     即其中有论文翻译:Preserving User Privacy For Machine Learning: Local Differential Privacy or Federated Machine Learning?的可能性输出真实值,有论文翻译:Preserving User Privacy For Machine Learning: Local Differential Privacy or Federated Machine Learning?的可能性输出其余k-1个候选值之一。

  对于在[-1,1]中归一化的数值属性,可以按以下方式应用[7]的分段机制:

                                    论文翻译:Preserving User Privacy For Machine Learning: Local Differential Privacy or Federated Machine Learning?

 

      即其中有论文翻译:Preserving User Privacy For Machine Learning: Local Differential Privacy or Federated Machine Learning?的可能性输出真实值,有论文翻译:Preserving User Privacy For Machine Learning: Local Differential Privacy or Federated Machine Learning?的可能性输出其余候选值。扰动后,净化后的数据fX01; X02; :::; X0 lg将在高速网络(例如Wi-Fi)可用时提交到服务器。

3.2.2服务器端:

  服务器从客户端接收一组扰动数据,并将它们连接为一个大型数据集。与通常具有校准功能的统计信息收集不同,由于我们的目标是生成一个扰动的数据集,因此经过清理的数据将没有这样的后处理步骤。将检查所有数据点是否有客户端生成的任何无效或错误值。可以进一步提取特征并将其放入学习管道中以训练新模型。要使用当前模型,将使用其参数来初始化新模型。

3.3策略FML:使用联合机器学习进行本地训练

3.3.1客户端:

  客户端收到有关模型更新任务的指令,其中包含一组训练参数,例如本地批次大小和训练次数。当前权重为W的服务模型将下载到此设备中。本地数据将被公式化为适当的输入形式,并进入培训管道。在当前回合t中,客户端m可以使用以下梯度下降遍历本地数据E以学习速率传递,然后再上传结果,如下所示:

                                         论文翻译:Preserving User Privacy For Machine Learning: Local Differential Privacy or Federated Machine Learning?

 

  其中Pm是本地数据fX1; X2; :::; Xlgm使用一次迭代,但是可以由服务器控制,以避免在一批中使用整个本地数据集。

 3.3.2服务器端:

  服务器在每一轮培训中向当前在线设备M的一部分C发送邀请,并在确认后开始向C M设备发送服务模型。从选定客户端收到的更新将被合并,等同于:

                                           论文翻译:Preserving User Privacy For Machine Learning: Local Differential Privacy or Federated Machine Learning?

 

  服务器-客户端交互将重复多次,直到参数的更改达到预定义的阈值为止。

4、评估

4.1设置

  在此比较研究中,我们评估了三个公共数据集。

  纽约出租车[8]:此数据集包含纽约市2016年黄色出租车旅行的1:4m样本。根据8个属性(例如,客户数量,行程的开始位置),训练模型以预测每次行程的持续时间。

  BR2000 [9]:此数据集包含2000年巴西人口普查中收集的38k普查数据样本。根据13个属性(例如家庭,残疾),训练了一个模型来预测一个人的月收入。

  成人[10]:此数据集包含来自UCI机器学习存储库的4.5万个普查数据样本。提供14个属性(例如,受教育程度,职业)来确定一个人的年收入是否超过5万。

  所有数据集均包含分类和连续属性。为了确保数据适用于LDP,我们使用相应的机制来干扰数字属性和分类属性。缺失的值和异常值被删除。对于这两个任务,机器学习模型都是一个神经网络,该网络具有2个包含30个单位的隐藏层,其后具有relu激活功能。输出层是softmax激活以产生分类结果。两种策略都给出了由10%数据训练的初始化模型。其余70%的数据分发给客户进行本地培训,而20%的数据用于测试。

  同样,LDP仅干扰70%的数据,而使用原始的20%进行测试。所有实验均在运行Windows 10且配备Intel Core i77700 3.6GHz CPU和32G DDR4 RAM的台式计算机上使用Python 3.6进行。使用TensorFlow r1.13模拟联合学习。由于实验需要数千个我们不拥有的移动设备参与,因此我们使用多台服务器计算机和多线程来模拟这些设备。对于LDP中的隐私预算,我们演示了论文翻译:Preserving User Privacy For Machine Learning: Local Differential Privacy or Federated Machine Learning?设置为2、4和8的结果,这是行业采用的常见预算[11]。对于LDP,使用0.1的学习速率对中心模型进行500次迭代训练,最多可重复100个时期。至于FML,默认情况下,我们在每一轮中选择20%的客户,最多200轮,并在上传更新之前在每台设备中以0.1的学习速率迭代20次本地通行证。

4.2分类表现

  为了探索两种策略的效果,我们评估了关于客户数量的误分类率。在训练期间收敛或超出LDP中服务器最大时数(FML中最大通信回合数)时报告该速率。如图1所示,这两种策略都可以通过将客户数量从0.1k更改为1.6k来减少误分类率。 LDP的速率在预算为2之前不会有太大变化,直到达到1300个客户端为止,该速率在BR2000数据集中达到最佳34%。预算为4的情况稍微收敛到误分类率27%,而预算8的情况在Adult数据集中达到了15%的最佳效果,并最终在大多数数据集中超过了FML。这与扰动机制是一致的,在这种机制中,宽松的隐私保证(即更大的预算)会导致噪音降低。客户规模超过1k后,大多数错误分类率就会达到饱和。这表明LDP的模型性能主要受益于具有大量分布式数据的环境。对于FML,评估了IID和非IID设置,即以大多数标签均匀地存在于每个设备或不同设备中的群集中的方式分发数据。在这两种设置中,误分类率随着更多的参与者而降低得更快,并分别在14%(IID)和19%(nonIID)上保持饱和状态,这在BR2000和NYC Taxi中分别是最佳的,当客户数量达到700和1000之间时。FML可以学习即使与LDP相比,早期阶段只有几个客户端,它还是一个有用的模型。显然,数据分布不均会对FML产生负面影响,而LDP不受数据分布的影响,因为该策略首先收集了所有数据。

4.3隐私损失

  为了了解这两种策略的隐私损失,使用常规样本推理攻击评估了推理准确性。在这种攻击中,我们假设对手(例如,不受信任的聚合器)能够在两种策略中解密通信渠道,并且具有有关本地训练集的类型(例如,属性类型,候选值)的基本知识。

 

 论文翻译:Preserving User Privacy For Machine Learning: Local Differential Privacy or Federated Machine Learning?

论文翻译:Preserving User Privacy For Machine Learning: Local Differential Privacy or Federated Machine Learning?

论文翻译:Preserving User Privacy For Machine Learning: Local Differential Privacy or Federated Machine Learning?

 

   通过观察客户端和服务器之间传输的数据(即LDP中的扰动数据和FML中的模型参数),对手可以进行推理攻击,以确定从相同分布中抽取的哪些样本属于客户端训练集。较高的推理精度会导致更大的隐私丢失。在LDP中,通过测量测试数据与扰动数据之间的曼哈顿距离来进行推断,并且将测试记录视为的成员。最小距离小于阈值的本地数据集。至于FML,由于对手可以同时获得全局模型和局部更新模型,因此通过比较两个模型的隶属度推断[12],可以暴露局部样本。也就是说,给定一个阈值,如果在本地模型的推理中将记录识别为成员,但在全局模型中不是记录的成员,则该记录可能属于本地集合。我们评估了测试数据集上的所有设置,其中一半用于本地训练,另一半位于设备外部,因此随机猜测为0.5。所有结果均在其设置的最佳阈值下报告。

论文翻译:Preserving User Privacy For Machine Learning: Local Differential Privacy or Federated Machine Learning?

 

 论文翻译:Preserving User Privacy For Machine Learning: Local Differential Privacy or Federated Machine Learning?

 

 论文翻译:Preserving User Privacy For Machine Learning: Local Differential Privacy or Federated Machine Learning?

 

  如图2所示,与FML相比,LDP可以灵活控制隐私丢失。除预算为8之外,推理精度被限制为小于80%,甚至55%,因为所有数据集中的隐私预算都降为2。至于FML,在本地通行证增加到10时,在5次本地通行证的所有数据集中,推理准确性可以达到80%以上,在NYC Taxi和Adult中甚至可以达到90%。为提高通信效率,通常通过迭代本地通行证可以为客户端增加更多计算量在聚合步骤之前更新多次。这表明这种细粒度的更新可以显着捕获本地数据的详细信息,并且容易受到恶意推断。在这种情况下,低预算的LDP比FML具有更强的隐私保证,而分类器的性能是通过重新访问模型错误分类率来权衡的。

4.4CPU消耗

4.4.1客户端侧

  主要客户端CPU消耗是因为LDP数据受到干扰,而FML大部分时间都用本地数据更新全局模型。我们将CPU时间与每个设备的平均本地数据集大小进行比较(图3)。FML会消耗更多的CPU来遍历数据,对于NYC Taxi,线性增长到3:8ms以上(对于BR2000,则为6.3ms),而LDP增长速度明显变慢,对于NYC出租车仅达到1.2毫秒(对于BR2000,则分别为1.7毫秒)。当本地数据集的大小较小时,由于实际处理时间太短,因此该时间将接近准备时间(例如参数初始化)。在FML设置下,电池会更快地耗尽电量。

4.4.2服务器侧

  服务器的计算资源用于合并客户端数据并在LDP中训练模型。显然,与FML相比,服务器花费更多的CPU来训练模型,而FML则只需要协调客户端并汇总所有接收到的更新,因为培训工作量已转移到客户端。对于每种模型,LDP中的500次迭代平均需要100个服务器训练时间,而平均时间为36s,而FML中的聚合和更新过程则少于1s

论文翻译:Preserving User Privacy For Machine Learning: Local Differential Privacy or Federated Machine Learning?

4.5通信花销

4.5.1客户端侧

  对于客户端设备的数据传输,由于LDP将收集所有数据,因此传输量与本地数据集的大小是恒定的,而FML根据模型大小发送许多参数。在图4中,当通信回合数少于300时,LDP的通信成本比FML大。最终,由于频繁与服务器交换模型更新,FML的成本高3倍。

4.5.2服务器侧

  在服务器端,由于针对轮次更改的通信成本仅汇总了所有客户端的通信成本,因此我们通过将每个客户端的轮次数量固定为1.1k(最佳模型性能)来针对客户端数量调查传输的数据大小。如图5所示,与FML相比,LDP在通信成本方面的增长要快得多,因为它等效于收集所有客户端组合的整个数据集。由于客户端和服务器之间的频繁交互,累积的传输数据不断增长每一轮有20%的客户参与时,其速度也很快达到30MB以上,并且可以以40%的参与率超过LDP。

论文翻译:Preserving User Privacy For Machine Learning: Local Differential Privacy or Federated Machine Learning?

 

 论文翻译:Preserving User Privacy For Machine Learning: Local Differential Privacy or Federated Machine Learning?

 

 5、讨论

  数据和培训程序的影响:在本比较研究中,我们评估了一般类型的适度数据。对于图像和音频之类的“重数据”,我们预计计算/网络开销的趋势将与当前的比较研究相似,但差距会不断扩大。一方面,随着LDP保持不变,此类数据的模型复杂性也会增加,因此FML中的客户端CPU使用率将急剧增加。另一方面,由于被扰动的数据大小与原始大小相似,因此LDP将消耗更高的网络使用率。对于LDP,为了公平比较,我们采用与FML相同的直接培训。但是,模型性能可能会对隐私预算有所波动。可以采用基于频率的统计方法[2]进行替代训练,以提高模型的质量和稳定性。主要思想是从扰动数据中生成诸如直方图之类的提要,并从该提要中合成训练数据。

  FML中的隐私挑战:尽管FML在提供高质量模型的同时提供了本地数据固有保存的良好特性,但该策略在隐私保护方面仍然面临许多挑战,原因有三方面。首先,如我们的经验分析所示,由于本地通行证号码的更改不会对隐私丢失产生重大影响,因此对于FML中提交的更新,隐私控制受到限制。其次,当前的FML严重依赖加密方案来提供安全的聚合,并且容易受到该指定加密方法的继承漏洞的影响。第三,系统效率容易因安全聚合方案而降低,例如本质上计算复杂的多方计算(MPC)[13]。

  FML和LDP的统一。本质上,FML中的聚合步骤是对分散的数据源执行均值计算。鉴于LDP经常被用于这种分布式分析任务[4],我们可以考虑通过将FML与LDP集成来解决上述挑战的统一方法。核心思想是在传输之前注入-LDP扰动以对更新进行模型化。具体而言,在客户端,照常提供了一组培训说明以执行本地培训。除了批量大小和培训通过次数外,还将向客户通知LDP干扰机制和隐私预算。导出参数更新W后,客户端将生成一个嘈杂的版本W + ldp(),而不是立即提交。在服务器端,从选定客户端收到的嘈杂更新将被合并并取消附加噪声。服务器与客户端之间的交互可以以不同的预算重复多次。如果扰动是由具有非零均值的偏置机制产生的,则服务器将进一步对汇总结果执行校准步骤,以获取准确的估算值。这样,即使通信信道被拦截,对手也只能恢复嘈杂的模型更新。此外,摄动的水平可以随时灵活地协商。例如,如果参与者发现隐私预算不满意,则他/她可以拒绝这一轮培训,直到达到期望为止。此外,摄动噪声ldp()通常是通过光计算产生的,与加密方案相比,它可以提高整体效率。新兴作品试图利用这种统一性,但设计仍限于特定类型的模型[14]。在某些方面,假设扰动以中间值表示,并且保持原始数据的高分辨率,则统一方法始终可以胜过两个原始数据。尽管如此,我们将他们的经验研究留给未来的工作。

6、相关工作

  LDP已广泛应用于分布式数据收集中,例如众包场景。发现它主要用于统计分析任务,例如对分类数据的频率估计。 Erlingsson等。提出的RAPPOR [15]用于此任务,它将敏感字符串转换为Bloom过滤器,然后应用随机响应方法[16]对其进行扰动。 [17]在LDP下研究了边际释放,这是为机器学习任务生成合成数据的潜在替代方法。已经提出了使用分布式资源的学习模型用于分布式GPU设置[18]。当他们专注于数据中心内部高度受控的网络时,Google提出了联合机器学习技术,以具有可伸缩设计的多个移动客户端的松散联盟[5],并使用诸如多方计算之类的加密方案开发了安全聚合[13]。至于系统方面,本文讨论的联邦学习体系结构是横向设计[19],它使LDP在通信级别上易于统一[14]。特别是,移动边缘计算中的水平联合系统已开始通过向SGD过程或最终更新注入噪声来研究差分私有版本[20]。

7、结论

  我们研究了两种有前途的数据分析策略,用于分布式设置,同时保护用户隐私。两种策略都在相同的实际机器学习问题中采用,并在各种系统设置下通过大量实验进行评估。结果表明,本地差异隐私主要受益于庞大的用户群,并且在保持严格的隐私保证的同时,在移动设备上消耗的CPU /电池更少。联合机器学习可以迅速适应中等数量的用户,并生成质量更高的学习模型,而细粒度的更新则容易受到推理的影响。但是,提交的数据具有局部差异隐私可以无限期地用于其他任务,例如边际释放或项目集挖掘,而FL训练的模型则指定用于一种类型的预测任务。对于未来的工作,我们计划使用相似的经验框架再次评估不同的统一解决方案。我们还计划在比较研究的基础上提出新的隐私保护方法。

论文翻译:Preserving User Privacy For Machine Learning: Local Differential Privacy or Federated Machine Learning?

上一篇:Linux查看CPU和内存使用情况


下一篇:learning MongoDB