About KG Embedding

KG Embedding

一、将词转换为向量

     

   从知识图谱的嵌入技术为知识图谱的补全提供了很大的帮助,将三元组(h,r,t)映射到向量空间中: (此处应该补习关于word2vec知识)

     entity1(1.5421,0.2421,-0.2126,...,1.2628)

     entity2(0.5421,1.2421,-1.2126,...,0.2628)

     ......

     relation1(0.2421,1.3421,-1.1126,...,0.1128)

   entity、relation里面的维度参数和embedding的维度相同,embedding维度也可与作为超参数进行调整

 

二、嵌入训练过程

About KG Embedding

 

                                                                     此处来自b站up主@小淡鸡

 关于训练中的几个问题:

1.初始化:初始化是随机的,通过训练来不断的让实体和关系的向量达到最接近事实的结果

2.负样本:负样本是产生的,这里有很多产生的方法,从一开始的手动,到后来的基于GAN的方法

3.打分函数:是现在Embedding技术中主要创新的地方,主要分为两大类

4.loss:以TransE为例   |h+r-t|   正loss趋于0,负loss趋于无穷 ???

 

三、关于Embedding Model(主要和打分函数有关系)

主要分为两大类:平移距离模型和语义匹配模型

平移距离模型:

1.Trans系列

①TransE    :将三元组(h,r,t)映射到向量空间中应该满足向量 h+r = t ,若三元组存在,应当无线接近于这个关系,但是这样会产生一个问题,就是一个实体和一个关系对应的另一个实体可能有很多,这样就导致有一系列的实体很相似。例如 :

h:张艺谋

r:导演

t:《长城》

     《影》

     《山楂树之恋》等等

   这样就会导致t中的一系列电影几乎是无限接近的,其实他们是有区别的,就是TransE不能解决一对多,多对多的关系

f(h,t) =  -| | h+r-t  | |  1/2  即越大越存在

About KG Embedding

 

此处参考自b站up主@小淡鸡

 

 

②TransH:为了解决TransE的问题产生了一系列的算法,TransH实在同一空间内将h,t 映射,此方法肯定会增加参数,时间复杂度肯定会增加

About KG Embedding

 

 

 

③TransR:对每一个关系都建立一个相应的空间来映射原来的h,t,这个方法虽然简单明了减少了参数,但是增加了空间复杂性。

About KG Embedding

 

 

 

语义匹配模型:

 

 

(未完待续)

  

 

上一篇:清易出品FDS-150土壤氮磷钾传感器低成本便携测量,准确测量土壤状况!


下一篇:矿视界译文:除了存储,Filecoin上还有哪些商机?