Instance-Based Ontology Mapping笔记整理
一、 论文整理思路流程
1.1 论文的相关研究工作
- CIM(Common Information Model):是计算机工业中用来定义设备和应用方式的一种标准,以便于系统管理员和管理程序可以用相同的方式控制来自不同厂商和来源的设备和应用程序。例如,一个购买来自不同公司不同种类存储设备的公司可以看到每台设备同种信息(例如:设备名称和型号、序列号、容量、网络地址以及和其他设备或应用程序的关系)或者可以从一个程序获取信息。
- CATO:本体集成引擎,用于在不同实体表示之间进行映射匹配,从而实现紧密集成并避免对本体论类产生有歧义的解释。但是缺陷在于当构成实体的数据来源较少时,细节上的表现就比较少,导致对实体的定义描述不完整。
- 数据库模式匹配:给出两个模式A、B,如果存在一个匹配映射μ,使得A中的概念a和B中概念b有a = µ(b),则认为a,b有相同的含义。
- 文章提出了一种补充CATO的方法,当原始资源表示不完整或定义不正确时,可以改善结果
- 将CATO与知识元素自动管理整合。
- 文章首先总结了CATO本体集成引擎所要进行的任务。集成异质的基于CIM的资源表达可以类比成数据库模式匹配。在CATO引擎中,我们假设如果每个资源都由一个独立的本体表示,则必须有一种支持本体协商关联的机制。这一种协商关联目的是找到可以确保联系的中间关联表达。
- CATO引擎结合了多种算法,如nlp、相似度衡量、树形比较。CATO的初始版本是基于java并使用了java带有的api-jena。CATO系统的原理是将本体内容的语义分析与句法分析混合在一起,具体的处理措施是在本体概念之间穿插语言层面和结构层面的比较。
- CATO的链接过程:首先比较两个概念之间的文字相似性,文字上相似的概念语义上也应该是相似的,但是有一些概念可能具有多义性,所以再引入结构比较,具体就是树形比较,比较概念的父类概念和子类概念。最终得出具有相等关系的两个概念。最终得到的结果是一个包含等价关系概念的OWL文档
- CATO的成功取决于输入本体中编码信息的数量和质量。 信息越丰富和完整,匹配结果越好。 相反,如果输入本体定义不正确,不完整或缺少,则本体集成引擎几乎没有要处理的数据,因此不可能提供足够可靠的结果。
- 为了解决CATO的不足,文章提出了使用基于实例的方法,不是取匹配本体的类型,而是考虑本体的实例。本体中不仅存储类别,还包括实例。基于实例的方法也是找到不同实体之间的匹配分类。文章的中心思想是处理对两种不同本体提出的查询结果,以此作为设计可靠的估计模型的方法,该模型表示成对的对齐概念之间的匹配率。因此文章提出每一个实例都有一个GTIN标识。
- 文章随后开始详细介绍提出的基于实例的方法
1.2 论文主要解决的问题
1.3 论文解决问题的过程
1) 查询阶段:首先令O表示一个本体,C表示它的类别集,包括分类[c1 … cn]。每一个类别可能对应多个O的实例,用[rk1…rkn]表示类型ck的实例。当Oa的实例ra和Ob的实例rb表示同一个现实世界的对象,则认为两实例是等价关系,同时也可认为ca和cb等价。在这个过程中,对于每一个分类对(ca,cb),需要计算得到每一个出现的ra和rb的对数总和n(ca,cb)(即ra ≡ rb时ca和cb是ra和rb的分类);类ca映射到类cb的频率的估计P(ca,cb)= n(ca,cb)/n(ca)
2) 分析阶段:在计算得到n(ca,cb)和P(ca,cb)后,使用查询得到的结果集对n(ca), n(ca,cb) 和P(ca,cb)重新计算
α是校准系数,取值集合是{0.01, 0.1, 0, 1, 10, 100}
∆(ca,cb)是当前ca和cb出现的数量。
∆(ca)是ca出现的数量。
n(ca,cb) 是ca和cb出现的总和。
n(ca)是ca出现的总和。
Ψ是一个平滑系数
1.4 论文使用的实验方法
- 使用6重交叉验证技术,验证数据集已被人工进行标注。
- 使用验证集对不同的系数组合进行分别的实验比较。
- 最终系统得到的准确度为89.7%,召回率是81.3%
- 系数设置中,α =1,数据集的真实匹配率为0.4时表现最好
1.5 实验最终结果的评估
二、 论文创新点
文章提出了一种补充CATO的方法,当原始资源表示不完整或定义不正确时,可以改善结果将CATO与知识元素自动管理整合。