About KG Embedding

2023-09-27 12:55:34

KG Embedding

一、将词转换为向量

从知识图谱的嵌入技术为知识图谱的补全提供了很大的帮助，将三元组（h，r，t）映射到向量空间中：（此处应该补习关于word2vec知识）

entity1（1.5421，0.2421，-0.2126，...，1.2628）

entity2（0.5421，1.2421，-1.2126，...，0.2628）

......

relation1（0.2421，1.3421，-1.1126，...，0.1128）

entity、relation里面的维度参数和embedding的维度相同，embedding维度也可与作为超参数进行调整

二、嵌入训练过程

此处来自b站up主@小淡鸡

关于训练中的几个问题：

1.初始化：初始化是随机的，通过训练来不断的让实体和关系的向量达到最接近事实的结果

2.负样本：负样本是产生的，这里有很多产生的方法，从一开始的手动，到后来的基于GAN的方法

3.打分函数：是现在Embedding技术中主要创新的地方，主要分为两大类

4.loss：以TransE为例 |h+r-t| 正loss趋于0，负loss趋于无穷？？？

三、关于Embedding Model（主要和打分函数有关系）

主要分为两大类：平移距离模型和语义匹配模型

平移距离模型：

1.Trans系列

①TransE :将三元组（h，r，t）映射到向量空间中应该满足向量 h+r = t ，若三元组存在，应当无线接近于这个关系，但是这样会产生一个问题，就是一个实体和一个关系对应的另一个实体可能有很多，这样就导致有一系列的实体很相似。例如：

h：张艺谋

r：导演

t：《长城》

《影》

《山楂树之恋》等等

这样就会导致t中的一系列电影几乎是无限接近的，其实他们是有区别的，就是TransE不能解决一对多，多对多的关系

f（h，t） = -| | h+r-t | | 1/2 即越大越存在

此处参考自b站up主@小淡鸡

②TransH：为了解决TransE的问题产生了一系列的算法，TransH实在同一空间内将h，t 映射，此方法肯定会增加参数，时间复杂度肯定会增加

③TransR：对每一个关系都建立一个相应的空间来映射原来的h，t，这个方法虽然简单明了减少了参数，但是增加了空间复杂性。

语义匹配模型：

（未完待续）