关注微信公众号:NLP分享汇。【喜欢的扫波关注,每天都在更新自己之前的积累】
文章链接:https://mp.weixin.qq.com/s/NhZqwmiDhQGbDjuonwMWMw
《 Web Semantics: Science, Services and Agents on the World Wide Web 》
论文链接:http://ws.nju.edu.cn/falcon-ao/pub/Hu.JWS.2008.pdf
阅读笔记:https://app.yinxiang.com/fx/c0b33b28-f204-4def-8e71-7f33eaf17139
一、介绍(Introduction)
-
Falcon是(语义)Web应用程序的基础设施,目的是提供提供基础技术来发现、对齐和学习本体。并且最终通过本体驱动方法从web中捕获知识。
-
Falcon-Ao是Falcon的主要组成框架,是一个自动本体匹配系统,帮助实现使用不同但相关本体的(语义)Web应用程序之间的互操作性。
二、系统结构(System architecture)
Falcon-AO系统结构如图1所示,由以下五个部分组成:
通过Jena工具解析输入本体到模型中(在内存中)。并且使用一组协调规则调整模型【Falcon-AO: aligning ontologies with Falcon,in: Proceedings of K-CAP Workshop on Integrating Ontologies】。
使用广泛接受的RDF/XML格式生成对齐,并且根据传统的精度P/召回R指标对生成的对齐进行评估。
-
Model Pool
-
Jena链接:http://jena.sourceforge.net/
-
-
Matcher Library
管理元素匹配器的集合。由四个部分组成:
-
V-Doc和I-Sub是两个轻量级的语言匹配器;
-
GMO是一个额迭代结构匹配器;
-
PBM采用分治策略寻找大规模本体之间的块映射。
-
-
Alignment Set
-
Central Controller
允许手动配置匹配策略。基于语言可比性和结构可比性的度量,它执行匹配器并结合相似性。
-
Repository
在匹配过程中存储可重用数据。
【此外,Falcon-AO实现了一个图形用户界面(GUI),提供功能(如设置匹配参数、查看和操作导出的队列)对用户来说很容易访问。】
三、特征与能力(Features and capabilities)
介绍Falcon-AO的特点和能力,包括多个元素匹配器(V-Doc、GMO、PBM),协调规则,相似度组合策略。
-
Linguistic matching(V-Doc)
采用语言学方法进行本体匹配。它的新颖之处在于构造虚拟文档的想法。基本上,作为权重词的集合,本体中的领域实体(如类或属性)的虚拟文档不仅包含局部描述,还包含反映实体意图的邻近信息。通过传统的向量空间技术计算文档相似度,并进一步应用于基于相似度的本体匹配方法。特别之处在于,利用RDF图结构从相邻域实体中获取描述信息。
-
Structural matching
GMO是一种迭代结构匹配器。它使用RDF二部图来表示本体,并通过递归传播二部图中的相似性来计算领域实体之间和本体中语句(三元组)之间的结构相似性。GMO采用一组外部比对作为输入,通常是以前被其他匹配者发现的(在目前的应用中,外部比对是那些来自V-Doc和I-Sub的高度相似的比对),并逐步生成额外的比对作为输出。
-
Partition-based block matching of large-scale ontologies
大规模本体由于其庞大的规模和单一的特性,给现有的本体匹配系统带来了巨大的挑战。PBM使用一种分而治之的方法来查找大规模本体之间的块映射,这种方式主要两点优势:
(1)它能避免我们的匹配系统遭受内存泄露;
(2)它能在不损害质量的情况下缩短执行时间。因为很可能一个或两个输入本体的大部分没有匹配的对应项。
特别的,PBM首先会划分每一个本体的领域实体为一些小集群基于他们的结构化距离(例如:在类层级结构中类之间的距离,和领域属性之前的重叠),然后通过将RDF句子分配给集群来构建块。RDF sentences可以提供比RDF statements更完整的句法和语义结构,因为它们可以将空白节点封装到其中。最后,块(block)通过锚点(anchors)匹配(即I-Sub预先找到的对齐),只有高度相似的块对(block pair)才能通过V-Doc和GMO进一步匹配。
-
Coordination rules
由于异构方式表示本体语言的语义和各种推理能力,本体通常有不同的表示。因此,在执行元素匹配器前去调整本体是必要的。Falcon-AO应用21种协调规则去消除多余的公理,减少要匹配的本体之间的结构异构性。
协调规则的3个类别可以被分配到元素匹配器中:
(1)removing redundant statements【删除多余的语句】;
(2)inferring omitted statements【推断省略语句】;
(3)reconstructing List structures【重建列表结构】。
-
Similarity combination strategy
在建立本体匹配系统时相似的组合(Similarity combination)是重要的难点。Falcon—AO是一种基于语言可比性和结构可比性的措施去逐步微调阈值cutoffs的方法,使得Falcon-AO在各种匹配场景下都很健壮。
语言可比性是通过检查候选对齐与本体中最小域实体数量的比例来计算的。结构可比性是通过比较在本体中使用了哪些内置属性以及使用频率来计算的。
Falcon-AO通过考虑这两种可比性去自动确定相似度组合策略。例如,如果语言可比性比较高,Falcon-AO将设置V-Doc和I-Sub更低的阈值,以至于从V-Doc和I-Sub得到的对齐可以被结合到最终的对齐中。