一、论文目标:将差分隐私和频繁项集挖掘结合,主要针对大规模数据。
二、论文的整体思路:
1)预处理阶段:
对于大的数据集,进行采样得到采样数据集并计算频繁项集,估计样本数据集最大长度限制,然后再缩小源数据集;(根据最小的support值,频繁项集之外的项集从源数据集移除)
我们利用字符串匹配去剪切数据集的事务;
2)挖掘阶段:
利用压缩数据集,先构造FP-Tree,隐私预算均匀分配,对真实的结果添加噪声;
3)扰动阶段:
对于候选频繁项集添加拉普拉斯噪声并且输出
通过限制每个事务的长度减少敏感度,使用字符串匹配和最长公共子序列进行事务截断
三、论文的挑战
1)如何设计一个抽样方法去控制抽样误差?
使用中心极限定理计算合理的样本大小,通过数据分析工具包随机抽样数据集。
2)第二个挑战是如何设计一个好的字符串匹配方法来截断事务而不会尽可能地丢失信息?
我们匹配样本数据中的潜在项目集以查找最相似的项目,然后将它们与最频繁的项目合并,直到达到最大长度约束。
四、论文的核心算法
算法1:通过抽样的数据集,发现潜在的频繁项集和最大的事务长度。
这个过程获取频繁项集采用一般的方法:比较support值;而得到长度,采用每个事务长度的数量和除以数据集D的数量>一个不确定的值进行。
算法2:通过潜在的频繁项集和事务长度,得到缩小后的源数据集。
之前的FP-Tree缩减数据集通过将1-项集排序,将小于阈值的项删除;这里我们通过潜在的频繁项集进行获取,而这个过程将大大删减源数据集的数量。
算法3:通过缩减后的数据集,构建FP-Tree和前k频繁项集。
对树的每个节点进行加噪。
五、实验指标
1、F-score
2、RE(相对误差)
六、论文总结
本文其实有两个地方加了差分隐私,一个是在构建FP-Tree树,一个是挖掘出频繁项集后加噪,其实最主要还是在第二个阶段。总的来说,这是一种在中心化差分隐私下进行挖掘频繁项集,
我们希望将其的扰动过程进行提前,实现本地化差分隐私下进行频繁项集挖掘。