Apache Spark机器学习.2.3 一致性匹配

2.3 一致性匹配


本节,我们将讨论一个重要的数据准备主题,就是一致性匹配和相关解决方案。我们将讨论几个使用Spark解决一致性问题的特征和使用Spark的数据匹配解决方案。

阅读本节以后,读者可以使用Spark解决一些常见的数据一致性问题。

2.3.1 一致性问题

我们经常需要在数据准备过程中处理一些属于同一个人或单元的数据元素,但这些元素并不相似。例如,我们有一些Larry Z.的购物数据和L. Zhang的网页活动数据。Larry Z.和L. Zhang是否是同一个人?数据中是否有很多一致性的变化。

由于实体变异的类型非常普遍,可能引起的原因有:重复、错误、名字变化和有意的别名等,使得对象匹配成为机器学习数据准备中的一个巨大挑战。有时,完成匹配或寻找关联都非常困难,而且这些工作非常耗时。然而,任何种类的错误匹配将产生许多错误,数据的不匹配也会产生偏见,因此数据匹配工作也是非常必要和极为重要。与此同时,正确的匹配也会在分组检测方面有附加的价值,例如恐怖组织、贩毒集团检测。

目前,已经开发了一些新的方法来解决这个问题,例如模糊匹配。本节,我们主要介绍一些常用的方法,包括:

使用SQL查询手工查找

该方法比较费力,发现少,但准确度高。

自动数据清洗

该方类方法一般会使用几项规则,这些规则使用信息最丰富的属性。

词汇相似性

这种方法合理且有用,但会产生许多假告警。

特征与关系匹配

这种方法比较好,但无法解决非线性影响。

上述方法的精度往往取决于数据的稀疏性和数据集的大小,也取决于这些任务是否是解决重复、错误、变异,或别名等问题。

2.3.2 基于Spark的一致性匹配

与前面类似,尽管最常用的工具是SparkSQL和R语言,但我们还是要介绍一些使用SampleClean处理实体匹配问题的方法。

2.3.3 实体解析

对于一些基本的实体匹配任务,SampleClean提供了简单易用的界面。SampleClean包含一个名为EntityResolution的类,该类包含了一些常见的重复程序模式。

一个基本的EntityResolution类包括以下几个步骤:

1.找到一个分类属性不一致的列。

2.将相似的属性连接在一起。

3.选择连接属性的一个单独正则表达方法。

4.变更数据。

短字符串比较

我们有一个短字符串的列,该列存在表示的不一致。EntityResolution.short-Attribute-Canonicalize函数的输入包括:当前内容,需要清洗的工作集名称,需要修正的列、阈值0或1(0全部合并,1仅匹配合并)。该函数使用EditDistance作为默认的相似度量方法。下面是一个代码例子:

 

长字符串比较

我们有一个长字符串的列,例如地址,它们是相近的但不准确。基本的策略是切分这些字符串,比较词汇集而不是整个字符串。该方法使用WeightedJaccard作为默认的相似性度量方法。下面是一个代码例子:

 

记录去重

更复杂的去重任务是记录的不一致,而不是单个字段的不一致。也就是说,多个记录指向相同的实体。RecordDeduplication使用Long Attribute作为默认的相似度量方法。下面是一个代码例子:

 

更多关于SampleClean的资料,请访问http://sampleclean.org/guide/。

2.3.4 更好的一致性匹配

正如前几节展示的,与数据清洗类似,同时使用SampleClean和Spark可以使一致性匹配更容易——编写较少的代码和使用更少的数据。正如前面讨论的,自动化的数据清理非常容易和快速,但准确性难以保证。把一致性匹配做得更好的常用方法是动用更多的人员使用费力的众包(crowd sourcing)方法。

SampleClean在众包去重方法中组合了算法、机器、人员等因素。

众包去重

由于众包非常难以扩展到非常大的数据集,SampleClean系统使用众包(crowd)在数据的一个采样集上进行去重,然后训练一个模型,并在整个数据集上推广众包的去重工作。具体来讲,SampleClean使用Active Learning算法进行采样,可以快速建立一个较好的模型。

配置众包

为了使用crowd worker清理数据,SampleClean使用开源的AMPCrowd服务来支撑多个crowd平台,并进行质量控制。因此,用户必须安装AMPCrowd。此外,必须通过配置传递CrowdConfiguration对象将crowd操作符指向AMPCrowd服务器。

使用众包

SampleClean目前提供了一个主要的众包操作符:ActiveLearningMatcher。

这是EntityResolution算法的扩展步骤,用于训练一个众包监督模型来预测重复。请看下面的代码:

 

匹配器的配置如下:

 

将匹配器添加到已有的算法,使用下面的函数:

上一篇:深度解析双十一背后的阿里云 Redis 服务


下一篇:贼好用,冰河再次升级了这款开源的精准定时任务和延时队列框架!!