关注微信公众号:NLP分享汇。【喜欢的扫波关注,每天都在更新自己之前的积累】
文章链接:https://mp.weixin.qq.com/s/h-39Cuhubzg6X9ynC1phXA
Falcon-Ao
是一个基于Java的自动本体匹配系统,已经成为 RDF(S) 和 OWL 所表达的 Web本体 相匹配的一种实用和流行的选择。
原理简介:https://mp.weixin.qq.com/s/NhZqwmiDhQGbDjuonwMWMw
官网链接:http://ws.nju.edu.cn/falcon-ao/
代码下载链接:http://ws.nju.edu.cn/falcon-ao/res/falcon.zip
论文下载链接:http://ws.nju.edu.cn/falcon-ao/pub/Hu.JWS.2008.pdf
论文阅读笔记:https://app.yinxiang.com/fx/c0b33b28-f204-4def-8e71-7f33eaf17139
用法:【目前没用起来,原因如下】
1、关于用法,目前我们能下载到的只有官方发布的Java代码,并没有一个文档来告诉我们该怎么去使用Falcon-AO;
2、官网Falcon-AO发布平台链接访问不到:http://seals.inrialpes.fr/platform/;
3、官网服务链接访问不到:http://219.219.116.154:8083/falconWS?wsdl;
4、已发邮件给作者进行求教,如果后续有收到回馈,可继续进行实践。
LIMES
实体关系发现框架LIMES用法
原理简介:https://mp.weixin.qq.com/s/Ie2nt0zOi2VK97x4jXYUwA
资源链接:http://www.openkg.cn/dataset/limes-tutorial
调通的程序下载链接:https://share.weiyun.com/l3gNKqpg【没加密哦,自取】
使用教程可详细查看:tutorial-limes.pdf【我们只要按照上面的步骤一步步执行即可,其中一些可能要注意的点可细看下文一、二部分】
一、我服务器上一些环境配置 【注】仅供参考,其余环境可根据自己需求进行调整。
-
mvn -v
-
Apache Maven 3.3.9 (bb52d8502b132ec0a5a3f4c09453c07478323dc5; 2015-11-11T00:41:47+08:00)
-
Maven home: /usr/local/apache-maven-3.3.9
-
Java version: 1.8.0_265, vendor: Private Build
-
Java home: /usr/lib/jvm/java-8-openjdk-amd64/jre
-
Default locale: en_HK, platform encoding: UTF-8
-
OS name: "linux", version: "4.4.0-131-generic", arch: "amd64", family: “unix"
-
-
java -version
-
openjdk version "1.8.0_265"
-
OpenJDK Runtime Environment (build 1.8.0_265-8u265-b01-0ubuntu2~16.04-b01)
-
OpenJDK 64-Bit Server VM (build 25.265-b01, mixed mode)
-
二、注意事项
-
运行 mvn clean install 和 mvn clean package shade:shade -Dcheckstyle.skip=true -Dmaven.test.skip=true 命令后可能无法生成我们想要的 limes-core-VERSION-SNAPSHOT.jar 包。具体原因我不是很清楚,但我个人觉得是因为网络的问题无法成功生成jar包【因为我用公司的网络无法成功执行,但我远程连接我实验室服务器,并在本地机(2M/s)执行后无此类问题】
-
java -jar limes-core-1.7.4-SNAPSHOT.jar config.xml
其中config.xml是要自己写的配置文件,文件中的内容可根据自己需求进行编写,具体可参考tutorial-limes.pdf。
-
关于config.xml
配置文件里面有涉及源数据集S,目标数据集T。我们需要预先下载好,并导入到相应位置中。
-
出现的BUG
-
解决方案:
1、Have you tried to run a query against both endpoints? It might be that at that time they were not reachable cause they were overloaded with requests. Also can you please check your proxy/firewall settings?
2、看看你的数据加载位置有木有写错,有可能程序一直加载不到数据,导致服务不可获取等情况。
-
三、编写配置文件
使用LIME工具进行实习关系融合的关键步骤是配置文件的编写,包括数据源、融合算法、融合条件等信息。
-
数据源
1、通过<Source>和<Target>标签指定数据源
2、数据源可以是SPARQL端点,也可以是本地文件(需要绝对路径)
3、标签内可以通过<VAR>指定参与实体相似度计算的变量,通过<PAGESIZE>指定<SPARQL>端点每次查询返回的最大Tripe数量以及其他的一些限制和预处理操作
-
融合算法
可以通过度量表达式或机器学习算法计算相似度。
1、通过<METRIC>标签指定度量表达式来计算相似度。多个Mertic Expression可以使用MIN、MAX、ADD操作符结合使用,目前所有操作符只支持两个Expression结合,但可以嵌套。
2、目前,METRIC支持的原子表达式有:Cosine、ExactMatch、Jaccard、Jaro、Jaro Winkler、Levenshtein、MongeElkan、Overlap、Qgrams、RatcliffObershelp、Soundex、Trigram。
3、通过<MLALGORITHM>指定机器学习算法自行计算相似度
(1)通过<NAME>指定选用的算法,支持wombat simple、wombat complete、eagle;
(2)通过<PARAMETER>制定训练参数。
-
融合条件
包括接受条件和复审条件
1、通过<ACCEPTANCE>指定接受条件,通过<REVIEW>指定复审条件;
2、两个标签中都需要通过<THRESHOLD>、<FILE>和<RELATION>指定阈值,输出文件路径和实体关系名称;
3、复审条件与接受条件类似,一般阈值比前者小。对于某些不满足接受的实体对,可根据复审条件输出到另一个文件进行复审。