Interlinking and Knowledge Fusion笔记整理
一、 论文整理思路流程
1.1 论文的相关研究工作
- LOD指链接的开源数据(Linked Open Data)。LOD数据来源的质量问题主要存在于缺少数据一致性,即同一个实体在不同数据集中的描述可能不同。
- 链接数据应用在使用网络数据前,应对得到的数据进行字典匹配、标识符解析、数据质量评估、数据融合。
1) 字典匹配:也成为模式对齐,将表示同一种信息的不同数据形式进行统一。
2) 标识符解析:目的是将指向同一实体的url相互联系起来。
3) 数据质量评估:保证来源于网页的数据的一致性和质量。
1.2 论文主要解决的问题
- 文章提出了为数据产生者提供了为数据来源之间寻找RDF链接的方法和开源工具
- 首先介绍了链接数据在使用前需要进行的处理过程,然后就各个过程结合文章提出的方法工具进行详细阐述。
- 针对字典匹配子问题,链接数据的来源使用不同的字典来描述同一类对象,因此链接数据应用通常期望数据以统一的目标字典进行表示。对不同的字典表示进行翻译是所有步骤的基础。为了解决这一问题,文章提出R2R Framework,这一架构由用于表达术语对应关系的映射语言和如何在网络上发布映射的最佳实践以及将数据转化为根据匹配使用目标字典表示的javaAPI组成。
- R2R架构:将网络来源的链接数据产生匹配链接,映射链接表示为RDF,并且每个映射都分配有自己的可解除引用的URI。R2R匹配语言与SPARQL十分相似。R2R匹配引擎使用一种基于匹配质量评估的启发式方法从不同来源中选择和链接部分映射的匹配组合方法。
- 识别不同数据源中描述同一现实对象是链接数据应用的中心问题。因此文章提出了Silk Link Discovery Framework,这一框架基于用户提供的或是自动学习的规则为链接数据产生RDF链接。SLDF可以在现有数据集之间产生RDF链接,并将这些链接集中表示为一个数据集。Silk的规则被表达为声明语句,定义了数据项需要被链接的情况。通常规则的产生使用ActiveGenLink算法自动产生。
- SILK的具体功能:
1.3 论文解决问题的过程
1) 管理不同数据源和链接任务的可能性
2) 图形化的编辑器用于创建和编辑链接规则
3) 对根据当前规则产生的链接的评估
4) 用于从现有参考链接中学习链接规则的用户界面
5) 主动学习界面,通过交互地要求用户确认或拒绝许多候选链接来学习链接规则
6) 可以创建和编辑用于评估当前链接规格的一组参考链接
Silk给出了三种命令行形式的应用用于实现上述功能,Silk Single Machine(在单台机器上生成RDF链接,输入数据集位于同一台机器上,或通过SPARQL协议访问)、Silk MapReduce(使用多台机器的集群在数据集之间生成RDF链接)、Silk Server(用于网络链接数据的识别)
- SILK将链接规则表示为由4种类型的运算符构建的树:
1) 属性算子:检索每个实体的特定属性的所有值
2) 转换算子:根据特定的数据转换函数转换数据项的值
3) 比较算子:根据特定的距离测度评估两个输入运算符的值之间的相似度
4) 聚合算子: 根据聚合函数合并来自多个比较或聚合运算符的分数
- 产生链接规则的算法GenLink算法:使用监督学习,将现有的链接作为训练数据进行学习。现有的参考链接可以通过人工生成。但是人工生成的参考链接通常也需要消耗过多的时间,因此,ActiveGenLink算法提出用于解决人工生成参考链接的问题。
- ActiveGenLink算法以随机生成的链接规则和一组初始为空的参考链接开始,在每次迭代中,它使用被称为查询策略的方法,从未标记的链接池中选择不确定其当前链接规则的链接为其生成候选连接规则。
- SILK的查询策略是候选链接的选择取决于当前生成的链接规则的投票选择。文章提出的改进策略是:由于未标记的链接在相似性空间中分布不均匀,因此文章根据与参考链接的比较将链接分布到不同的簇上,针对投票选择,其中仅允许填写特定参考链接的链接规则进行投票。
- 数据清理和链接:由于数据来源于不同的形式,如html、xml、csv等。因此数据清理工具需要发现不一致数据、移除重复项的功能。文章提供了LODRefine工具作为针对ROD2对象的数据清理链接。尽管有工具的帮助,数据的清理仍然需要人工参与。
- LODRefine的核心功能:
1) 支持从各种格式导入数据
2) 查找重复项,将其删除,查找相似值
3) 使用多方面查询过滤数据
4) 使用正则表达式过滤数据
5) 支持GREL(一种强大的数据转换语言)
6) 将数据链接到Freebase的能力
7) 从Freebase向已对齐数据中添加数据的能力
8) 使用各种服务从文本中识别和提取命名实体(命名实体识别)
9) 创建众包职位并向众包平台上传数据
- 前文所述的步骤中获得的数据质量是十分多样的,数据项的值可能出现错误,因此为了链接数据应用能高效利用数据,之后的工作应该是评估数据质量。文章提出了Sieve –一种 链接数据的质量评估和数据融合框架。
- Sieve包含两个组成部分,数据质量评估和数据融合。以多个RDF数据源作为输入。Sieve以模式和对象标识符已被规范化(即如果两个描述引用相同的真实世界对象,则它们具有相同的url标识符,并且如果两个属性引用相同的真实世界属性,则应该有两个值 给定主题URI的相同属性URI)为预设假设。每一个属性值以四元组的形式表达(subject,property,object,graph)。
- Sieve的质量评估:sieve考虑质量指示器(是数据项或数据集的一个方面,可以指示数据对于某些预期用途的适用性,如数据类型)、计分函数(产生数据适合性的具体的数字表示)、评估标准三个方面。
- Sieve的数据融合:包含两个部分,过滤器功能将输入的部分数据移除,转换功能对输入的所有数据值从最初提供的值生成一个新的值列表。最终的输出是一个四元组集每一个四元组表示融合后的subject-property值
- 此外,文章还提出了基于汉语韩语日语的亚洲语系链接评估和数据融合系统,对于韩语,文章使用了韩语发音距离,韩语转换成英语再计算编辑距离、韩语编辑距离的方法作为计算是否链接的标准
二、 论文创新点
文章提出了为数据产生者提供了为数据来源之间寻找RDF链接的方法和开源工具R2R,包括提出使用Silk 和LODRefine进行数据之间连接到产生和衡量;Sieve评估数据质量和解决数据值冲突的方法。